본문 바로가기

빅데이터분석기사

빅데이터 분석 기획

--- 빅데이터 ---

* 빅데이터 특징

3V= Volume(분석규모), Variety(자원유형), Velocity(활용속도)

5V= Volume(분석규모), Variety(자원유형), Velocity(활용속도), Veracity(데이터 신뢰성), Value(얻을수있는가치)

7V= Volume(분석규모), Variety(자원유형), Velocity(활용속도), Veracity(데이터 신뢰성), Value(얻을수있는가치), Validity(질높은데이터), Volatility(데이터가의미있는기간)

 

* 1TB = 10^12 Bytes

1 Byte = 256종류의 다른 값을 표현할 수 있다.

 

* 빅데이터 조직구조

집중구조

전사 분석 업무를 별도의 분석 전담 조직에서 집중 담당

전략적 중요도에 따라 분석조직이 우선순위 정해서 진행 가능

현업 업무부서의 분석 업무와 중복 및 이원화 가능성 높음

 

기능구조

일반적인 형태로 별도 분석 조직 없고, 해당 부서에서 분석을 같이 수행

전사적 핵심 분석이 어려우며 과거에 국한된 분석 수행

 

분산구조

분석조직 인력들을 현업 분서로 직접 배치하여 분석 업무 수행

전사 차원의 우선순위 수행

분석 결과에 따른 신속한 피드백이 나오고 베스트 프랙티스 공유 가능

업무 과다와 이원화 가능성 존재할 수 있어 역할 분담 명확해야 함

 

* 조직 성과 평가 절차 / 직무별 역량 모델 개발 절차

목표설정 - 모니터링 - 목표수정 - 평가실시 - 결과의 피드백

or

성과지표 풀 수집/관리 - KPI도출 - KPI별 평가방식 정의 - KPI별 가중치 정의 - KPI별 평가등급 기준 정의 - 구성원활동에 대한 평가 기준 제시

 

* 균형 성과표 (Balanced Score Card) 관리의 네가지 관점

재무, 고객, 내부 프로세스, 학습/성장

(전략은 오답임)

 

* 조직 구조 설계할 때 고려할 요소

공식화, 분업화, 직무 전문화, 퉁제범위, 의사소통 및 조정

 

* 비정형 데이터

- 수집데이터 각각이 데이터 객체로 구분된다

- 고정 필드 및 메타데이터(스키마 포함)가 정의되지 않는다

- Crawler, API, RSS 등의 수집 기술을 활용한다.

 

* 빅데이터와 인공지능의 관계

- 상호보완관계로 빅데이터는 인공지능 구현 완성도를 높여주고, 빅데이터는 인공지능을 통해 문제해결 완성도를 높인다

- 빅데이터 기술이 주목받는 이유는 정보처리 능력이 중심이 아니라 우수한 정보처리를 바탕으로 의미 있는 솔루션을 도출할 수 있다는 것이다.

- 빅데이터 목표가 인공지능 목표와 부합하고, 인공지능 판단을 위해서는 빅데이터 기술이 필수이므로, 빅데이터는 인공지능을 위한 기술이 될 가능성이 크다.

 

* 데이터 비식별화 처리기법

가명처리 - 개인 식별이 가능한 데이터에 대해 직접 식별할 수 없는 다른 값으로 대체. (장식별, 외국대)

  • 휴리스틱 익명화
  • k-익명화
  • 암호화
  • 교환방법

데이터마스킹 - 개인식별정보에 대해 전체 또는 부분적으로 대체값으로 변환 (장00, 00대학)

  • 임의 잡음 추가
  • 공백과 대체

총계처리 - 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판달할 수 없도록 함

  • 총계처리 기본방식
  • 부분집계
  • 라운딩
  • 데이터 재배열

데이터값 삭제 - 개인정도 식별이 가능한 특정 데이터값 삭제

  • 속성값 삭제
  • 속성값 부분삭제
  • 데이터 행 삭제
  • 준식별자 제거를 통한 단순 익명화

범주화 - 단일 식별 정보를 해당 그룹의 대푯값으로 변환

  • 범주화 기본 방식
  • 랜덤 올림 방법
  • 범위 방법
  • 세분 정보 제한 방법
  • 제어 올림 방법

 

* 정보통신망법 = 정보통신망을 통하여 수집, 처리, 보관, 이용되는 개인정보의 보호에 대한 규정

  신용정보법 = 개인 신용정보의 취급 단계별 보호조치 및 의무사항에 대한 규정 

  개인정보의 안정성 확보 조치 기준 = 개인정보 처리자가 개인정보를 처리함에 있어서 분실, 도난, 유출, 변조, 훼손되지 않도록 안정성을 확보하기 위해 취해야 하는 세부적인 기준 규정

  개인정보 보호법 = 개인정보 처리 과정상의 정보주체와 개인정보 처리자의 권리와 의무 등을 규정한 법규

 

--- 데이터 분석 계획 ---

* 데이터 분석 방법론 구성요소 (4)

- 절차

- 방법

- 도구와 기법

- 탬플릿 & 산출물

 

* 하향식 접근 방식의 과제 발굴 절차 (4)

- 문제 탐색

- 문제 정의

- 해결 방안 탐색

- 타당성 검토

 

* 하향식 접근 방식에서 문제 탐색 단계는

- 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요하다

- 비즈니스 모델 캔버스는 문제 탐색 도구로 활용한다

- 분석 기회 발굴 범위 확장 (STEEP)

- 분석 유즈 케이스를 활용한다

- 외부 참조 모델 기반 문제 탐색

- 빠짐없이 문제를 도출하고 식별하는 것이 중요하다

 

* CRISP-DM 

- 1996년 유럽연합의 ESPRIT프로젝트에서 시작한 방법론으로 1997년 SPSS에서 참여했으나 현재는 중단됨

- 단계간 피드백을 통하여 단계별 완성도를 높인다

- 구성요소로는 단계, 일반화 태스크, 세분화 태스크, 프로세스 실행이 있다

 

* CRISP-DM 분석절차

업무이해(업무목적파악,상황파악,데이터마이닝목표설정,프로젝트계획 수립) - 데이터 이해 - 데이터 준비 - 모델링(모델테스트계획설계,모델링기법선택,모델평가) - 평가(모델적용성펑가) - 전개

 

* KDD 분석절차(5)

데이터세트 선택 - 데이터 전처리 - 데이터 변환 - 데이터 마이닝 - 데이터 마이닝 결과 평과

 

* SEMMA 분석방법론 분석절차

샘플링-탐색-수정-모델링-검증

 

* 데이터 확보 계획 수립 절차

목표정의 - 요구사항 도츨 - 예산안 수립 - 계획 수립

 

* 빅데이터 분석 절차

문제 인식 - 연구 조사 - 모형화 - 자료 수집 - 자료 분석 - 분석 결과 공유

 

* 빅데이터 방법론 분석 절차

분석 기획 - 데이터 준비 - 데이터분석 - 시스템 구현 - 평가 및 전개

 

* 빅데이터 분석 방법론의 계층(3)

단계, 태스크, 스텝

 

* 분석작업 WBS 설정 단계 (4)

- 데이터 분석 과제 정의

- 데이터 준비 및 탐색

- 데이터 분석 모델링 및 검증

- 산출물 정리

 

--- 데이터 수집 및 저장 계획 ---

 

* 데이터 수집 프로세스

수집데이터 도출 - 목록작성 - 데이터소유기관 파악/협의 - 데이터유형 분류/확인- 수집기술선정 - 수집계획서 작성 - 수집주기 결정 - 데이터 수집 실행

 

* 데이터 수집 목록 작성 시 검토사항 (4)

수집 가능성 여부, 보안문제, 세부 데이터 항목(품질,정확성), 비용

 

* 수집 데이터 대상

1. 내부데이터 - 서비스(SCM, ERP, CRM, 거래시스템), 네트워크(방화벽, 백본, IPS), 마케팅(VOC접수)

2. 외부데이터 - 소셜(sns,커뮤니티), 네트워크(장비간발생로그M2M,센서데이터), 공공(정부공개 공공데이터)

 

* 정형데이터 수집방식(6)

- ETL : process=추출(extract), 변환(transform), 적재(load)

- FTP

- API

- DBtoDB

- Rsync

- Sqoop

  • 벌크 임포트 지원
  • 데이터 전송 병렬화
  • 직접 입력 제공 (RDB에 매핑해서 Hive에 직접 import)
  • 프로그래밍 방식의 데이터 interaction

* 반정형데이터 수집방식(5)

- 센싱

- 스트리밍

- 플럼

- 스크라이브

- 척와

 

* 비정형데이터 수집방식 (5)

- 크롤링

- RSS

- Open API

- Scrapy

  • 파이썬기반
  • 크롤링 수행 후 바로 데이터 처리 가능
  • 다양한 부가기능(Spider, Selector, Items, Pipelines, Settings)

- Apache Kafka

  • 대용량 실시간
  • 신뢰성 제공
  • 확장성 제공
  • 기능 (4) : 소스, 채널, 싱크 (이벤트 생성, 수립, 버퍼구간, 전달/저장), 인터프리터(가공)

 

* 수집 데이터 검증 방안

- 스트림 데이터 : 순서번호 검증, 별도의 파일 또는 헤더에 개수, 용량, 기간, 순서번호 등이 수록된 메타데이터 검증

- 파일/콘텐츠 데이터 : 네이밍 규칙 검증

- 스트림/파일/콘텐츠 데이터 : 체크섬 검증

 

* 데이터 측정 척도

- 등간척도 :

비계량적인 변수를 정량적인 방법으로 측정하기 위해 사용.

각각의 대상을 별도로 평가.

동일 간격화로 크기간의 차이를 비교할 수 있게 만든 척도

- 서열척도 : 여러대상을 같이 놓고 상대적으로 평가.

 

* 데이터 처리기술

  • 데이터 필터링
  • 데이터 변환
  • 데이터 정제
  • 데이터 통합
  • 데이터 축소

* 데이터 변환 기술 = 다양한 형식으로 수집된 데이터를 분석에 용이하도록 일관성 있는 형식으로 만든다

- 집계 = 다양한 차원의 방법으로 데이티 요약. 복수개 속성을 줄이거나, 유사한 데이터 객체를 줄이고 스케일을 변경.

- 평활화 = 잡음을 제거하기 위해 추세에 벗어나는 값들을 변환

- 일반화= 특정 구간에 본포하는 값으로 스케일 변화. 일부만이 아닌 범용적인 데이터에 적합한 모델 만드는 기법.

- 정규화 = 데이터를 정해진 구간(-1.0~1.0예시)내 들도록 함

- 속성 생성 = 데이터 통합을 위해 새로운 속성이나 특징을 만드는 방법. 주어진 여러데이터 분표를 대표하는 속성 활용.

 

* 데이터 품질 특성

1. 데이터 유효성

 - 정확성 (정사적필연)

  • 정확성
  • 사실성
  • 적합성
  • 필수성
  • 연관성

- 일관성 (정일무)

  • 정합성
  • 일치성
  • 무결성

2. 데이터 활용성 (유접적보)

- 유용성

  • 충분성
  • 유연성
  • 사용성
  • 추적성

- 접근성

  • 접근성

- 적시성

  • 적시성

- 보안성

  • 보호성
  • 책임성
  • 안정성

* 빅데이터 저장 기술 중 분산파일시스템

- GFS Google File System

:클라이언트(파일요청), 마스터(청크서버에 전송지시), 청크서버(데이터 전송, 청크서버 상태 전달)로 구성

- HDFS 하둡 분산 파일 시스템

- Lustre 러스터

 

* 빅데이터 저장 기술 중 NoSQL 유형 (=비관계형 데이터 저장소. RDBMS와 다르게 설계된 DB)

- Key-Value store

- Column Family Data Store

- Document Store

- Graph Store

 

* NoSQL 특징

- Key와 Value 형태로 자료를 저장하고, 빠르게 조회할 수 있는 자료구조를 제공하는 저장소이다.

- 스키마 없이 동작한다.

- 높은 수평적 확장성, 가용성, 성능을 제공한다.

- BASE : Basically Available 언제든지 접근 가능,Soft State 노드의상태는 외부에서 전송된 정보로 결정. Eventually Consistency 일정시간이 지나면 데이터의 일관성이 유지되는 속성.

- 아파치 HBase, 구글 BigTable, 아마존SimpleDB, 마이크로소프트 SSDS가 NoSQL의 종류이다.

- CAP 이론을 기반으로 함.

 

* CAP이론

분산 컴퓨팅 환경은 Availability, Consistency, Partition Tolerance 3가지 특징을 가지고 있으며 2가지만 만족할 수 있다

Availability (유효성) = 모든 클라이언트가 읽/쓰 가능해야함. 한 노드의 장애가 다른 노드에 영향 미치면 안됨.

Consistency (일관성) = 모든 사용자에게 같은 시간에는 같은 데이터 보여줘야함.

Partition Tolerance(분산가능) = 물리적 네트워크 분산환경에서 시스템이 원활하게 작동해야함. 데이터 손실상황이 생겨도 시스템은 정상적으로 동작해야함.

 

* 정규표현식 기호

- 종료 문자열 = $

- 시작 문자열 = ^

- 1개 이상의 문자열 매칭 = +

- 0개 이상의 문자열 매칭 = *

 

*프라이버시 보호 모델

- t근접성 : 동질집합에서 민감정보의 분포와 전체데이터 집합에서의 민감정보 분포가 유사한 차이를 보이게 함.

 

* 데이터 저장 관리절차

데이터 전/후 처리 - 데이터 저장 - 데이터 보안관리 - 데이터 품질관리

 

* 빅데이터 저장을 위한 제품 검토 시 사용자 요구사항을 검토한다. 데이터 적재 아키텍처 수립을 위한 요구사항 정의 절차. 빅데이터 요구사항 분석절차.

요구사항 수집/도출 - 요구사항 분석 - 요구사항 명세 - 요구사항 검증

 

* 아키텍처 정의 (3)

  • 요구사항 구현을 위한 기반 기술을 정의하는 과정
  • 요구사항 반영하여 HW, SW 아키텍처 정의하는데, 정보시스템 개발, 테스트, 이관을 위한 기술적 기반
  • HW아키텍처 정의 단계에서는 목표, 성능, 가용성을 고려하여 HW인프라 장비규격을 결정하고, 장비배치 및 환경 구성을 결정한다.

* 개인정보 비식별 조치 가이드라인의 정정성 평가 프로세스(5)

기초 자료 작성 - 평가단 구성 - 평가 수행 - 추가 비식별 조치 - 데이터 활용