본문 바로가기

Python

파이썬_데이터 전처리 (Encoding) Data Preprocessing, GET DUMMIES #2

■의미

머신러닝에서 문자로 된 데이터는 모델링이 되지 않는다.

회귀분석 또한 데이터가 숫자로 이루어져야 learn 가능하다.

문자를 숫자로 바꾸어 주는 방법 중 하나로 get dummies 함수가 있다.

더미변수(가변수,dummy variable)를 만들어, 각 열에 0과 1로 표현되는 방식이다.

1은 있다/맞다, 0은 없다/아니다를 나타낸다.

 

 

표현식

pandas.get_dummies(dataprefix=Noneprefix_sep='_'dummy_na=Falsecolumns=Nonesparse=Falsedrop_first=Falsedtype=None) 

pd.get_dummies(데이터프레임명,column=['칼럼명'])   #특정칼럼만 처리할 경우

 

 

활용예시

 

★ pd.get_dummies(train,column=['Pclass'])

# train 데이터 프레임에 있는 Pclass칼럼을 찾아. 여기 있는 범주형데이터를 더미변수로 각각 만들어줘.

 

 pd.get_dummies(train,column=['sex'])



 

★ pd.get_dummies(s1,dummy_na=True)   #결측값도 궁금해. 별도 칼럼으로 생성해줘

 

★ pd.get_dummies(train,columns=['과일']).fillna(0)

# 사과 판매데이터가 0이라 결측값이 있다면 0으로 바꿔줘

 

 

★ 추가 코드문과 ONE-HOT ENCODING과의 비교는 아래 게시글 참조

jungmoonga.tistory.com/18