데이터마이닝 _분류분석 :: 로지스틱회귀분석, 의사결정나무, 인공신경망, 베이지안분류, SVM, KNN, 사례기반추론
데이터 마이닝
= 가정, 가설 없이 예측 가능한 분석에 초점을 두고 의미있는 정보를 찾아내는 방법
cf) 통계분석 = 가정, 가설을 가지고 추정하는것. 통계량과 그래프, 표를 이용하는 기술통계와 통계를 바탕으로 한 추측통계(ARIMA, 다차원척도법, 주성분분석) 가 있다.
미리 알아 맞추는 예측
1. 분류분석(classification)
2. 예측분석
데이터 특징을 나타냄으로써 사람, 상품에 대한 이해를 높이는 설명, 기술(description)이라는 목적
1. 군집분석(clustering)
2. 연관성분석
으로 크게 나눌 수 있다.
분류분석 (classification)
=지도학습(목적이 있다). 각 그룹이 이미 정의되어 있으며 범주형 속성을 알아맞추는 분석이다.
1. 로지스틱 회귀분석 : R에서glm() 함수 사용
= 새로운 x가 범주형 속성을 가진 Y에 속할 사후 확률을 통해 0 또는 1로 분류하는 방법.
= 회귀분석에 log를 취함으로써 0이면 발생no, 1이면 발생yes.
= 예측변수(독립변수)가 여러 개인 모형 적합 시, 변수 선택법으로 step(forward, backward, both) 로 direction옵션 사용
= 승산 관점에서 재해석 시
: 독립변수가 1개 인 경우, 회귀계수 β>0 이면 로지스틱함수는 S자형 그래프, β<0 이면 역 S자 그래프가 된다.
: Odds 승산비 = p/1-p = (1/5) / (4/5) = 5번 중 4번 질 동안 5번 중 1번 이기는 비율
2. 의사결정나무
= 데이터들의 속성으로부터 분할기준을 판별하고, 그에 따라 트리형태로 모델링하는 분류예측법.
= 분류함수 (어느별에서 추출된지 모르는 표본 관측되었을 때, 여러 모집단 중 하나로 분류해주기 위해 분류기준으로 사용되는 함수)가 활용된다.
= 연속적으로 발생하는 의사결정 문제를 시각화해서 의사결정 시점과 성과를 쉽게 파악 가능.
= 계산결과가 의사결정나무에 직접적으로 나타나기 때문에 해석이 용이.
= 귀납적 추론 기반(=개개의 구체적인 사실이나 현상에 대한 관찰로서 얻어진 인식을 그 유(類) 전체에 대한 일반적인 인식으로 이끌어가는 절차)
= 의사결정나무가 성장할 때, 최적 분할의 결정은 불순도 감소량을 가장 크게 하는 분할이다. 부모마디의 순수도에 비해 자식마디들의 순수도가 증가(불순도가 감소)하도록 자식마디를 형성해나간다.
= 이전 분할의 영향을 받는다.
= 중간마디는 부모마디와 자식마디가 둘 다 있는 마디다.
= 정지규칙:정지기준은 의사결정나무의 깊이를 지정하고, 끝마디의 레코드 수의 최소 개수를 지정한다.
= 가지치기: 과대적합해결. 분류의 오류가 크거나 부적절한 규칙의 가지.
= 불순도측도 (공통: 하향식)
의사결정나무 알고리즘 | 이산형 목표변수 | 계산법 | 연속형 목표변수 | 기타 참고사항 |
CART | 지니지수 | 1-∑P^2 | 분산을 이용한 이진분리(분산의 감소량) | 이지분리 |
QUEST | 카이제곱통계량의 p-값 | ∑((기대-실제)/기대도수)^2 *기대도수 계산법 |
분산분석에서 F-통계량 | 범주개수 많도록 편향이 심한 CART 개선. 이지분리. |
C4.5 C5.0 | 엔트로피지수 | -(∑PlogP) | 없음 | 다지분리 가능 |
CHAID | 카이제곱통계량의 p-값 | ∑((기대-실제)/기대도수)^2 *기대도수 계산법 |
분산분석에서 F-통계량 | 다지분리. 입력변수가 반드시 범주형. 가지치기 안함. AID를 Chi-Squared로 발전시킨 알고리즘 |
= 의사결정나무의 활용
- 세분화
- 분류
- 예측
- 차원축소 및 변수선택
- 교호작용 효과의 파악
= 의사결정나무의 장점
- 해석의 용이성
- 상호작용 효과의 해석 가능
- 비모수적 모형
- 유연성과 정확도 높음
= 의사결정나무의 단점
- 비연속성
- 선형성 또는 주 효과의 결여
- 비안정성
3. 인공신경망
= 뉴런이 전기신호 전달하는 모습 모방
= neuralnet()함수의 실행결과로 도출되는 generalized weigth(로지스틱회귀계수와 유사)
= 입력값을 받아 출력값을 만들기 위해 활성화 함수 사용
= 뉴련 활성화 함수
- 시그모이드함수
- 계단한수
- 부호함수
- reLU함수
- softmax함수 = 표준화지수함수. 출력값이 여러개로 주어지고 목표치가 다범주에 속할 사후확률제공.
= 역전파할 때 가중치 더 줌
= 역사 :
1세대 : 인공신경망 개념 최초 제안, 퍼셉트론 선형 분류 가능한 순방향 신경망 제안, XOR 선형 분리 불가 문제 발생
2세대 : 다층 퍼셉트론과 역전파 알고리즘 등장, 은닉층 통해 XOR 문제 해결, 과적합문제/사라지는 경사현상 문제 발생
3세대 : 알파고, 딥러닝(CNN, RNN)활용, 과적합문제/기울기 소실 문제 해결
4. (나이브) 베이지안 분류
= 베이즈 정리 : 어떤 사건에 대한 사전확률 원인에 대한 가능성과 사후확률 원인에 대한 가능성 사이의 관계를 설명하는 확률이론.
= 전확률의정리(=Law of Total Probability) : 나중에 주어지는 사건A의 확률을 구할 때, 그 사건의 원인을 나누어서 원인데 대한 조건부확률과 그 원인이 되는 확률p의 곱에 의한 가중합으로 구할 수 있다는 법칙
5. Support Vector Machine (SVM)
= 데이터를 분리하는 초평면(Hyperplane, n차원 공간의 n-1차원 평면) 중에서 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도학습 기반의 이진 선형 분리 모델. 이 때, 데이터 분류의 기준이 되는 경게를 결정경계라고 한다.
= 최대 마진(* 결정경계에서 서포트 벡터까지의 거리)을 가지는 비확률적 선형판별(* 모든 그룹의 공분산 행렬은 같다고 가정 시, 관측치로부터 그룹중심까지의 거리제곱이 최소인 경우 해당 그룹으로 분류하는 분석) 에 기초한 이진 분류기.
= Support Vector 란, 학습데이터 중에서 결정경계와 가장 가까이에 있는 데이터들의 집합이다.
= 변수 속성 간의 의존성은 고려하지 않고, 모든 속성을 활용한다.
= 훈련시간은 느리다
= 정확성이 뛰어나고 다른 방법보다 과대적합 가능성이 낮다.
= 하드마진SVM은 오분류를 허용하지 않는다. 노이즈로 인해 최적결정경계를 못 찾을 수도 있고 잘못 구할 수 도 있음.
소프트마진SVM은 오분류를 허용. 허용된 오차를 위한 변수로 슬랙변수(=여유변수)를 사용한다.
= SVM 적용 방식
- 선형으로 분리 가능 : 최적 결정 경계 기준으로 1과 -1 구분하여 분류.
- 선형 분리 불가능 : 2차원에서 3차원으로 매핑하여 선형 분류할 수 있다. 저차원 공간을 고차원 공간으로 매핑 시 연산이 복잡해지며, 커널트릭(*커널함수사용)을 통해 해결한다.
6. KNN (K-Nearest Neighborhood)
7. 사례 기반 추론 Case based reasoning