본문 바로가기

빅데이터분석기사

데이터마이닝 _연관성분석 :: 장바구니분석, 순차분석, aprioi함수, FP-growth, 지지도, 신뢰도, 향상도, lift

데이터 마이닝

= 가정, 가설 없이 예측 가능한 분석에 초점을 두고 의미있는 정보를 찾아내는 방법

cf) 통계분석 = 가정, 가설을 가지고 추정하는것. 통계량과 그래프, 표를 이용하는 기술통계와 통계를 바탕으로 한 추측통계(ARIMA, 다차원척도법, 주성분분석) 가 있다.

 

미리 알아 맞추는 예측

1. 분류분석(classification)

2. 예측분석

 

데이터 특징을 나타냄으로써 사람, 상품에 대한 이해를 높이는 설명, 기술(description)이라는 목적

1. 군집분석(clustering)

2. 연관성분석(association analysis)

 

으로 크게 나눌 수 있다.

 

 

연관성분석 (association analysis)

= 데이터 내부 존재하는 항목간 상호관계 또는 종속관계를 찾아내는 분석법

= 목적변수가 없어(=비지도학습) 분석 방향이나 목적이 없어도 적용 가능.

= 조건반응(if-then)으로 표현되어 결과 이해 용이

= 매우 간단한 분석 계산 가능

 

= 장바구니 분석

= 순차분석(서열분석, 연속규칙)

 

방법 

  1. aprioi 함수 (data, param: ) 최소지지도 이상의 부분집합으로만, 어떤 항목 집단 빈발하다면, 모든 부분집합도 빈발.
  2. FP-growth : SKU 줄여서 Frequent Pattern Tree 생성
  3. FPV

 

연관성분석 평가 척도

  1. 지지도 = 전체 거래 중 A와 B동시에 포함하는 거래의 비율 =P(A∩B)
  2. 신뢰도 = A 샀을 때 B도 살 조건부 확률 = P(A∩B)/P(A)
  3. 향상도 LIFT = 규칙이 우연에 의해 발생한 것인지 판단하기 위한 연관성 측정 척도 = 실제/랜덤 = P(B|A)/P(B)=신뢰도/P(B)=P(A∩B)/P(A)*P(B)
  • 향상도가 1일 경우, 서로 독립적 관계 = 과자와 후추
  • 향상도 >1일 경우, 양의 상관관계 = 빵과 버터
  • 향상도<1일 경우, 음의 상관관계 = 설사약과 변비약

 

 

-