텍스트 마이닝_데이터 전처리, 불용어 제거 함수

## 아래와 같이 규칙 생성 ##

from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(tokenizer=None, stop_words="english", analyzer='word').fit(특정리스트)

# tokenizer = 텍스트 데이터가 들어왔을 때 어떻게 단어를 나눠줄 지 정의
#(default일 경우 None, 한국어의 경우 별도 지정하여 기입 필요)

# stop_words = 불용어
#(영어의 경우 into, the, he "english"로 설정하면 됨/ 한국어의 경우 은는이가, 그)

#analyzer = 분석 단위

bow_vect = vect.fit_transform(특정리스트)
word_list = vect.get_featurenames() #각각 벡터들의 공간에 어떤 단어들이 들어가 있는지 알 수 있음.
count_list = bow_vect.toarray().sum(axis=0) #word_list에 있는 단어(각 벡터)들이 나온 횟수

## 규칙 생성 완료 ##

# 점검 ##
bow_vect.shape
bow_vect.toarray()
bow_vect.toarray().sum(axis=0) #count_list 한 것과 같은 결과 나옴. 각 열의 합으로 계산됨.

## 응용 1 ##
word_count_dict = dict(zip(word_list, count_list))
print(str(word_count_dict))[:50]

## 응용 2 (1에서 만든 dict 활용) ##
import operator
sorted(word_count_dict.items(), keys=operator.itemgetter(1),reverse=True) 
#item을 정열기준을 뒤에 있는 횟수 기준으로, reverse True로 놓고 많은 순으로

## 시각화 ##
plt.hist(list(word_count_dict.values()), bins = 150)

'Python' 카테고리의 다른 글

파이썬_컬럼명 리스트로 받기 Get Column Names as List in Pandas DataFrame (0)	2023.08.31
현재 사용 가능한 파일 링크 확인 (0)	2023.08.31
텍스트마이닝 (0)	2021.05.15
파이썬_선택한 row 원하는 개수만큼 복사,추가하기 (0)	2020.11.06
파이썬_한 칼럼 내 모든 데이터에 동일한 문자열 추가 (0)	2020.11.03

데이터 분석하는 정문가

텍스트 마이닝_데이터 전처리, 불용어 제거 함수

'Python' 카테고리의 다른 글

티스토리툴바

텍스트 마이닝_데이터 전처리, 불용어 제거 함수

'Python' 카테고리의 다른 글

'Python' Related Articles

티스토리툴바