데이터 마이닝
= 가정, 가설 없이 예측 가능한 분석에 초점을 두고 의미있는 정보를 찾아내는 방법
cf) 통계분석 = 가정, 가설을 가지고 추정하는것. 통계량과 그래프, 표를 이용하는 기술통계와 통계를 바탕으로 한 추측통계(ARIMA, 다차원척도법, 주성분분석) 가 있다.
미리 알아 맞추는 예측
1. 분류분석(classification)
2. 예측분석
데이터 특징을 나타냄으로써 사람, 상품에 대한 이해를 높이는 설명, 기술(description)이라는 목적
1. 군집분석(clustering)
2. 연관성분석(association analysis)
으로 크게 나눌 수 있다.
연관성분석 (association analysis)
= 데이터 내부 존재하는 항목간 상호관계 또는 종속관계를 찾아내는 분석법
= 목적변수가 없어(=비지도학습) 분석 방향이나 목적이 없어도 적용 가능.
= 조건반응(if-then)으로 표현되어 결과 이해 용이
= 매우 간단한 분석 계산 가능
= 장바구니 분석
= 순차분석(서열분석, 연속규칙)
방법
- aprioi 함수 (data, param: ) 최소지지도 이상의 부분집합으로만, 어떤 항목 집단 빈발하다면, 모든 부분집합도 빈발.
- FP-growth : SKU 줄여서 Frequent Pattern Tree 생성
- FPV
연관성분석 평가 척도
- 지지도 = 전체 거래 중 A와 B동시에 포함하는 거래의 비율 =P(A∩B)
- 신뢰도 = A 샀을 때 B도 살 조건부 확률 = P(A∩B)/P(A)
- 향상도 LIFT = 규칙이 우연에 의해 발생한 것인지 판단하기 위한 연관성 측정 척도 = 실제/랜덤 = P(B|A)/P(B)=신뢰도/P(B)=P(A∩B)/P(A)*P(B)
- 향상도가 1일 경우, 서로 독립적 관계 = 과자와 후추
- 향상도 >1일 경우, 양의 상관관계 = 빵과 버터
- 향상도<1일 경우, 음의 상관관계 = 설사약과 변비약
-
'빅데이터분석기사' 카테고리의 다른 글
데이터마이닝 _군집분석 :: 계층적군집, 비계층적군집, K-means clustering, EM알고리즘, SOM(자기조직화지도), 밀도기반함수, 실루엣계수, 응집도 (0) | 2020.12.24 |
---|---|
데이터마이닝 _분류분석 :: 로지스틱회귀분석, 의사결정나무, 인공신경망, 베이지안분류, SVM, KNN, 사례기반추론 (0) | 2020.12.19 |
빅데이터 분석 기획 (0) | 2020.12.13 |
데이터 결측값, 이상값 처리 (0) | 2020.12.09 |
하둡 에코시스템 (0) | 2020.11.26 |