데이터마이닝 _분류분석 :: 로지스틱회귀분석, 의사결정나무, 인공신경망, 베이지안분류, SVM, KNN, 사례기반추론

빅데이터분석기사

데이터마이닝 _분류분석 :: 로지스틱회귀분석, 의사결정나무, 인공신경망, 베이지안분류, SVM, KNN, 사례기반추론

정문가 2020. 12. 19. 11:18

데이터 마이닝

= 가정, 가설 없이 예측 가능한 분석에 초점을 두고 의미있는 정보를 찾아내는 방법

cf) 통계분석 = 가정, 가설을 가지고 추정하는것. 통계량과 그래프, 표를 이용하는 기술통계와 통계를 바탕으로 한 추측통계(ARIMA, 다차원척도법, 주성분분석) 가 있다.

미리 알아 맞추는 예측

1. 분류분석(classification)

2. 예측분석

데이터 특징을 나타냄으로써 사람, 상품에 대한 이해를 높이는 설명, 기술(description)이라는 목적

1. 군집분석(clustering)

2. 연관성분석

으로 크게 나눌 수 있다.

분류분석 (classification)

=지도학습(목적이 있다). 각 그룹이 이미 정의되어 있으며 범주형 속성을 알아맞추는 분석이다.

1. 로지스틱 회귀분석 : R에서glm() 함수 사용

= 새로운 x가 범주형 속성을 가진 Y에 속할 사후 확률을 통해 0 또는 1로 분류하는 방법.

= 회귀분석에 log를 취함으로써 0이면 발생no, 1이면 발생yes.

= 예측변수(독립변수)가 여러 개인 모형 적합 시, 변수 선택법으로 step(forward, backward, both) 로 direction옵션 사용

= 승산 관점에서 재해석 시

: 독립변수가 1개 인 경우, 회귀계수 β>0 이면 로지스틱함수는 S자형 그래프, β<0 이면 역 S자 그래프가 된다.

: Odds 승산비 = p/1-p = (1/5) / (4/5) = 5번 중 4번 질 동안 5번 중 1번 이기는 비율

2. 의사결정나무

= 데이터들의 속성으로부터 분할기준을 판별하고, 그에 따라 트리형태로 모델링하는 분류예측법.

= 분류함수 (어느별에서 추출된지 모르는 표본 관측되었을 때, 여러 모집단 중 하나로 분류해주기 위해 분류기준으로 사용되는 함수)가 활용된다.

= 연속적으로 발생하는 의사결정 문제를 시각화해서 의사결정 시점과 성과를 쉽게 파악 가능.

= 계산결과가 의사결정나무에 직접적으로 나타나기 때문에 해석이 용이.

= 귀납적 추론 기반(=개개의 구체적인 사실이나 현상에 대한 관찰로서 얻어진 인식을 그 유(類) 전체에 대한 일반적인 인식으로 이끌어가는 절차)

= 의사결정나무가 성장할 때, 최적 분할의 결정은 불순도 감소량을 가장 크게 하는 분할이다. 부모마디의 순수도에 비해 자식마디들의 순수도가 증가(불순도가 감소)하도록 자식마디를 형성해나간다.

= 이전 분할의 영향을 받는다.

= 중간마디는 부모마디와 자식마디가 둘 다 있는 마디다.

= 정지규칙:정지기준은 의사결정나무의 깊이를 지정하고, 끝마디의 레코드 수의 최소 개수를 지정한다.

= 가지치기: 과대적합해결. 분류의 오류가 크거나 부적절한 규칙의 가지.

= 불순도측도 (공통: 하향식)

의사결정나무 알고리즘	이산형 목표변수	계산법	연속형 목표변수	기타 참고사항
CART	지니지수	1-∑P^2	분산을 이용한 이진분리(분산의 감소량)	이지분리
QUEST	카이제곱통계량의 p-값	∑((기대-실제)/기대도수)^2 *기대도수 계산법	분산분석에서 F-통계량	범주개수 많도록 편향이 심한 CART 개선. 이지분리.
C4.5 C5.0	엔트로피지수	-(∑PlogP)	없음	다지분리 가능
CHAID	카이제곱통계량의 p-값	∑((기대-실제)/기대도수)^2 *기대도수 계산법	분산분석에서 F-통계량	다지분리. 입력변수가 반드시 범주형. 가지치기 안함. AID를 Chi-Squared로 발전시킨 알고리즘

= 의사결정나무의 활용

세분화
분류
예측
차원축소 및 변수선택
교호작용 효과의 파악

= 의사결정나무의 장점

해석의 용이성
상호작용 효과의 해석 가능
비모수적 모형
유연성과 정확도 높음

= 의사결정나무의 단점

비연속성
선형성 또는 주 효과의 결여
비안정성

3. 인공신경망

= 뉴런이 전기신호 전달하는 모습 모방

= neuralnet()함수의 실행결과로 도출되는 generalized weigth(로지스틱회귀계수와 유사)

= 입력값을 받아 출력값을 만들기 위해 활성화 함수 사용

= 뉴련 활성화 함수

시그모이드함수
계단한수
부호함수
reLU함수
softmax함수 = 표준화지수함수. 출력값이 여러개로 주어지고 목표치가 다범주에 속할 사후확률제공.

= 역전파할 때 가중치 더 줌

= 역사 :

1세대 : 인공신경망 개념 최초 제안, 퍼셉트론 선형 분류 가능한 순방향 신경망 제안, XOR 선형 분리 불가 문제 발생

2세대 : 다층 퍼셉트론과 역전파 알고리즘 등장, 은닉층 통해 XOR 문제 해결, 과적합문제/사라지는 경사현상 문제 발생

3세대 : 알파고, 딥러닝(CNN, RNN)활용, 과적합문제/기울기 소실 문제 해결

4. (나이브) 베이지안 분류

= 베이즈 정리 : 어떤 사건에 대한 사전확률 원인에 대한 가능성과 사후확률 원인에 대한 가능성 사이의 관계를 설명하는 확률이론.

= 전확률의정리(=Law of Total Probability) : 나중에 주어지는 사건A의 확률을 구할 때, 그 사건의 원인을 나누어서 원인데 대한 조건부확률과 그 원인이 되는 확률p의 곱에 의한 가중합으로 구할 수 있다는 법칙

5. Support Vector Machine (SVM)

= 데이터를 분리하는 초평면(Hyperplane, n차원 공간의 n-1차원 평면) 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도학습 기반의 이진 선형 분리 모델. 이 때, 데이터 분류의 기준이 되는 경게를 결정경계라고 한다.

= 최대 마진(* 결정경계에서 서포트 벡터까지의 거리)을 가지는 비확률적 선형판별(* 모든 그룹의 공분산 행렬은 같다고 가정 시, 관측치로부터 그룹중심까지의 거리제곱이 최소인 경우 해당 그룹으로 분류하는 분석) 에 기초한 이진 분류기.

= Support Vector 란, 학습데이터 중에서 결정경계와 가장 가까이에 있는 데이터들의 집합이다.

= 변수 속성 간의 의존성은 고려하지 않고, 모든 속성을 활용한다.

= 훈련시간은 느리다

= 정확성이 뛰어나고 다른 방법보다 과대적합 가능성이 낮다.

= 하드마진SVM은 오분류를 허용하지 않는다. 노이즈로 인해 최적결정경계를 못 찾을 수도 있고 잘못 구할 수 도 있음.

소프트마진SVM은 오분류를 허용. 허용된 오차를 위한 변수로 슬랙변수(=여유변수)를 사용한다.

= SVM 적용 방식

선형으로 분리 가능 : 최적 결정 경계 기준으로 1과 -1 구분하여 분류.
선형 분리 불가능 : 2차원에서 3차원으로 매핑하여 선형 분류할 수 있다. 저차원 공간을 고차원 공간으로 매핑 시 연산이 복잡해지며, 커널트릭(*커널함수사용)을 통해 해결한다.