본문 바로가기

빅데이터분석기사

(6)
데이터마이닝 _연관성분석 :: 장바구니분석, 순차분석, aprioi함수, FP-growth, 지지도, 신뢰도, 향상도, lift 데이터 마이닝 = 가정, 가설 없이 예측 가능한 분석에 초점을 두고 의미있는 정보를 찾아내는 방법 cf) 통계분석 = 가정, 가설을 가지고 추정하는것. 통계량과 그래프, 표를 이용하는 기술통계와 통계를 바탕으로 한 추측통계(ARIMA, 다차원척도법, 주성분분석) 가 있다. 미리 알아 맞추는 예측 1. 분류분석(classification) 2. 예측분석 데이터 특징을 나타냄으로써 사람, 상품에 대한 이해를 높이는 설명, 기술(description)이라는 목적 1. 군집분석(clustering) 2. 연관성분석(association analysis) 으로 크게 나눌 수 있다. 연관성분석 (association analysis) = 데이터 내부 존재하는 항목간 상호관계 또는 종속관계를 찾아내는 분석법 = 목적..
데이터마이닝 _군집분석 :: 계층적군집, 비계층적군집, K-means clustering, EM알고리즘, SOM(자기조직화지도), 밀도기반함수, 실루엣계수, 응집도 데이터 마이닝 = 가정, 가설 없이 예측 가능한 분석에 초점을 두고 의미있는 정보를 찾아내는 방법 cf) 통계분석 = 가정, 가설을 가지고 추정하는것. 통계량과 그래프, 표를 이용하는 기술통계와 통계를 바탕으로 한 추측통계(ARIMA, 다차원척도법, 주성분분석) 가 있다. 미리 알아 맞추는 예측 1. 분류분석(classification) 2. 예측분석 데이터 특징을 나타냄으로써 사람, 상품에 대한 이해를 높이는 설명, 기술(description)이라는 목적 1. 군집분석(clustering) 2. 연관성분석 으로 크게 나눌 수 있다. 군집분석 (clustering) = 관측된 변수값들로부터 유사성에만 기초하여 n개의 군집으로 집단화하여 집단의 특성을 분석하는 다변량 분석기법. = 목적이 없는 비지도 학습..
데이터마이닝 _분류분석 :: 로지스틱회귀분석, 의사결정나무, 인공신경망, 베이지안분류, SVM, KNN, 사례기반추론 데이터 마이닝 = 가정, 가설 없이 예측 가능한 분석에 초점을 두고 의미있는 정보를 찾아내는 방법 cf) 통계분석 = 가정, 가설을 가지고 추정하는것. 통계량과 그래프, 표를 이용하는 기술통계와 통계를 바탕으로 한 추측통계(ARIMA, 다차원척도법, 주성분분석) 가 있다. 미리 알아 맞추는 예측 1. 분류분석(classification) 2. 예측분석 데이터 특징을 나타냄으로써 사람, 상품에 대한 이해를 높이는 설명, 기술(description)이라는 목적 1. 군집분석(clustering) 2. 연관성분석 으로 크게 나눌 수 있다. 분류분석 (classification) =지도학습(목적이 있다). 각 그룹이 이미 정의되어 있으며 범주형 속성을 알아맞추는 분석이다. 1. 로지스틱 회귀분석 : R에서glm..
빅데이터 분석 기획 --- 빅데이터 --- * 빅데이터 특징 3V= Volume(분석규모), Variety(자원유형), Velocity(활용속도) 5V= Volume(분석규모), Variety(자원유형), Velocity(활용속도), Veracity(데이터 신뢰성), Value(얻을수있는가치) 7V= Volume(분석규모), Variety(자원유형), Velocity(활용속도), Veracity(데이터 신뢰성), Value(얻을수있는가치), Validity(질높은데이터), Volatility(데이터가의미있는기간) * 1TB = 10^12 Bytes 1 Byte = 256종류의 다른 값을 표현할 수 있다. * 빅데이터 조직구조 집중구조 전사 분석 업무를 별도의 분석 전담 조직에서 집중 담당 전략적 중요도에 따라 분석조직이 우..
데이터 결측값, 이상값 처리 데이터 결측값 = 누락된 값. 데이터 결측값 표현 = NA, 999999, Null, inf, NaN 데이터 결측값 종류 완전 무작위 추출 = 변수상에서 발생한 결측값이 다른 변수와 아무런 상관이 없는 경우 (월급:응답자와 무응답자 분포가 같음) 무작위 결측 = 결측값이 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계 없음 (우울증:남성이 설문참여율 높지만 우울증결과와 무상관) 비 무작위 결측 = 누락된 값(변수의 결과)이 다른 변수와 연관 있는 경우 (소득:고소득자가 무응답률 높음) 데이터 결측값 처리 방법 단순대치법 = 결측값을 그럴 듯한 값으로 대체. 단순대치법> 완전분석법 : 완전하게 관측된 자료만 사용. 추론 타당성 문제 발생 단순대치법> 평균대치법 : 비 조건부 평균대치법(평균값으로 ..
하둡 에코시스템 하둡 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임 워크. 비즈니스에 효율적으로 적용할 수 있게 다양한 서브 프로젝트가 제공된다. 신뢰할 수 있고, 확장성이 용이하며 분산컴퓨팅 환경을 지원하는 오픈소스 소프트웨어. 서브 프로젝트를 바탕으로 하둡 에코시스템이 구성되었다. 아래 두가지 하둡 코어프로젝트를 제외한 나머지는 모두 서브프로젝트다. HDFS 분석데이터 저장 맵리듀스 분산데이터 처리 워크플로우 Oozie, Airflow, Azkaban, NiFi 여러 단계에 걸쳐 처리되는 분석 작업의 흐름 (workflow)을 관리하는 시스템 Oozie 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템 (스케줄링/모니터링) 맵리듀스나 피그 같은 특화된 액션들로 구성된 워크플로우 제어 자바 서블..