■의미
머신러닝에서 문자로 된 데이터는 모델링이 되지 않는다.
회귀분석 또한 데이터가 숫자로 이루어져야 learn 가능하다.
문자를 숫자로 바꾸어 주는 방법 중 하나로 get dummies 함수가 있다.
더미변수(가변수,dummy variable)를 만들어, 각 열에 0과 1로 표현되는 방식이다.
1은 있다/맞다, 0은 없다/아니다를 나타낸다.
■표현식
pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
pd.get_dummies(데이터프레임명,column=['칼럼명']) #특정칼럼만 처리할 경우
■활용예시
★ pd.get_dummies(train,column=['Pclass'])
# train 데이터 프레임에 있는 Pclass칼럼을 찾아. 여기 있는 범주형데이터를 더미변수로 각각 만들어줘.
★ pd.get_dummies(train,column=['sex'])
★ pd.get_dummies(s1,dummy_na=True) #결측값도 궁금해. 별도 칼럼으로 생성해줘
★ pd.get_dummies(train,columns=['과일']).fillna(0)
# 사과 판매데이터가 0이라 결측값이 있다면 0으로 바꿔줘
★ 추가 코드문과 ONE-HOT ENCODING과의 비교는 아래 게시글 참조
'Python' 카테고리의 다른 글
파이썬_기하확률분포 데이터시각화 (연애 시작한 남녀가 결혼하게 될 확률 분포) (0) | 2020.11.02 |
---|---|
파이썬_람다함수(lambda함수) 의미,사용법,활용예시 (0) | 2020.10.30 |
파이썬_칼럼 이름들을 리스트로 받기 (0) | 2020.10.21 |
파이썬_여러줄 주석(#,샵) 처리 (0) | 2020.10.20 |
파이썬_특정값이 포함된 칼럼을 찾아 row 제거하기 (drop if) (0) | 2020.09.25 |