1. 데이터 분석에 기초한 가치 창출과 관련된 설명.
- 핵심적인 비즈니스 이슈에 답을 주는 분석은 기업의 경쟁전략과 밀접하게 연관된다.
- 전략적 분석과 통찰력의 창출은 빅데이터 프로젝트에서 핵심적인 역할을 한다.
- 기존 성과를 유지하고 업계를 따라잡는 것이 전략적 가치 분석의 가장 중요한 목표는 아니다.
- (오답) 복잡한 최적화 능력은 데이터 분석활용의 최고수준으로 최고의 가치를 창출한다.(x)
4 데이터 가치 측정이 어려운 이유로 부적절한 것은?
- 데이터 재사용 일반화되서 누가 사용했는지 알 수 없어서.
- 기존에 없던 가치를 창출해서.
- 과거에 분석이 불가능했던 데이터를 분석할 수 있게 되어서.
- (오답)빅데이터 전문인력의 증가로 다양한 곳에서 빅데이터가 활용되고 있어서.(X)
6. 머신러닝 알고리즘을 지도학습, 비지도학습으로 나눌 때 성격이 다른것
- 군집분석 = 비지도
- 분류분석 = 지도
- 감성분석 = 지도학습
- 회귀분석 = 지도
8 사용자 정의 데이터나 멀티미디어 데이터 등 복잡한 데이터 구조를 표현/관리 할 수 있는 데이터베이스 관리시스템은?
객체지향 DBMS 일반적으로 사용되는 테이블 기반의 관계형 DB와는 다르게 정보를 객체 형태로 표현
10 빅데이터 분석 방법론의 분석 기획 단계에서 프로젝트 위험대응 계획을 수립할 떄, 예상되는 위험에 대한
대응방법의 구분으로 부적절한것은?
회피(avoid), 완화(mitigate), 수용(accept), 전이(transfer)
(오답) 관리(manage)
11. 분석 과제 발굴 중 하향식 접근법문제발견-문제정의-문제해결-타당성검토Problem Discovery(Problem search아님) - problem definition-problem solving-feasibility study
13 빅데이터 분석 방법론의 분석 기획 단계에서 수행하는 주요 task가 아닌 것은?
- 비즈니스 이해 및 범위 설정
- 프로젝트 범위 설벙
- 프로젝트 정의
- 프로젝트 계획수립
- 위험식별
- 필요데이터의 정의(X)
14 분석마스터플랜을 수립할 때 적용 범위 및 방식에 대한 고려요소가 아닌 것은
- 업무내재화 적용수준
- 분석데이터 적용수준
- 기술 적용수준
- 투입비용수준(X)
17 구간 추정 방법과 신뢰구간에 대한 설명으로 옳지 않은 것은
- 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라고 선언하는 것이다.
- 신뢰수준이 높아지면 신뢰수준의 길이는 길어진다,
- 표본의 수가 많아지면 신뢰구간의 길이는 짧아진다.
- 95% 신뢰구간 = 주어진 한개의 신뢰구간에 미지의 모수가 포함되지 않을 확률이 95%이다(x)
- 주어진 한 개의 신뢰구간에 미지의 모수가 포함될 확률이 95%이다.
신뢰수준과 신뢰구간은 비례관계에 있다. 신뢰수준이 1%에서 99%로 늘어나면 신뢰구간도 늘어난다.
표본의 수가 늘어날 수록 정확도가 높아지고, 모평균에 대한 추정이 정확해진다. n이 커질수록 L이 좁아진다.
표준편차가 낮을수록 평균에 가깝기 때문에, 모평균에 대한 추정이 정확해진다. s가 작아질수록 L이 좁아진다.
별개로) 신뢰수준(Confidence Level)은 높거나, 신뢰구간은 좁을 때 의미가 있다.
18 데이터의 한 부분으로 특정 사용자가 관심을 갖고 있는 데이터를 담은 비교적 작은 규모의 데이터 웨어하우스
데이터 마트
데이터 프레임(오답)
21 응답자1 응답자2의 피어슨 상관계수 계산
차이의 곱/(루트(차이^2) 의 곱)
-1과1 사이. 1은 양의 상관관계, 0은 상관 없고 산포도에서 원의 형태.
23 ARIMA 모델에서 ARMA로 정상화 할 때 몇 번 차분을 하였는가? 2번
ARIMA(1,2,3)
ARMA(1,3) 2번 차분한 시계열의 모형
25 오분류표에서 특이도(specificiy) 계산
트루네거티브/(트루네거티브+폴스포지티브) 네거티브가 사실인데 네거티브로 예측한 경우
특이도, 민감도(리콜) 은 실제 기준!!!!
정확도(precision)은 예측기준!
27 분류분석의 불순도 알고리즘
이산형 변수 연속형 변수 명목형변수 순서형 범주형변수
C4.5 (다지분할) 엔트로피지수
CHAID (다지분할) 카이제곱통계량 F통계량? 다지분할=여러개로 분리
CART (이지분할) 지니계수 분산감소량 이지분할=양쪽으로 분리
* 엔트로피 지수는 목표변수가 범주형이 의사결정나무의 분류규칙을 선택하기 방법이다.
32 mx=matrix(c(1,2,3,4,5,6), ncol=2,byrow=T) 결과? 행을 기준으로 2열 매트릭스
36 두 변수 간 선형관계의 크기를 측정하는 공분산의 크기가 단위에 따라 영향을 받지 않도록 한 피어슨 상관계수에서
두 변수의 상관관계가 없을 경우 도출되는 값은? 0
37 인공지능 기술의 발전과 함께 주목받고 있는 딥러닝기법에 기반을 두고 있는 모형은?
신경망모형
(오답) 유전자 알고리즘
38 다층 신경망 모형에서 은닉층의 개수를 너무 많이 설정하면 역전파 과정에서
앞쪽 은닉층의 가중치 조정이 이루어지지 않아서 신경망의 학습이 제대로 이루어지지 않는다. 이런 현상은?
기울기 소실 문제
(오답)
지역최적화문제 : 중복성을 제거하기 위해 사용하는 최적화 (local optimization)
XOR문제 : 퍼셉트론의 한계에서 탄생. -> 다층퍼셉트론 발생 https://blog.naver.com/arar2017/221757337942
40 데이터 분석 시 데이터는 불완전한 내용을 담고 있는 경우가 많다. 데이터 전처리는 이를 제거하거나 보정하여 데이터의 품질을 높이는 작업이다. 데이터 전처리작업 중 이상치 검색은 분석에서 전처리를 어떻게 할 지 결정할 때 사용한다. 이상치 판정방법으로 부적절한것은? (옳은 것만 적음)
- 3sigma = 평균으로부터 표준편차 3배가 넘는 범위의 데이터
- 회귀분석 적합 후 잔차분석을 실시하여 이상치를 판정하는 방법이 있다
- 통계모형에 기반한 방법으로는 Grubb's Test(=Extreme Studentized Deviation), Hoelling's T2 test등이 있다.
3 빅데이터 기획 전문가
회사 내 기능조직, 비즈니스 분석 또는 BI조직에 소속되어 있으면서
빅데이터 분석 전문 조직과 협력을 통해 업무에 필요한 분석 모델이나 예측모델을 Self Service Analytics도구를 활용하여 구현하는 전문가
4 기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 ISP(Information Strategy Planning)을 수행한다 ISP는 정보기술 또는 정보시스템을 전략적으로 활용하기 위해 조직 내/외부 환경을 분석하여 기회나 문제점을 도출하여 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차이다.
5. 실험결과가 단지 성공과 실패만 있다고 가정.
성공일 확률 변수는 1, 실패일 확률변수는 0 이고, 성공일 확률은 0.3이다. 이 경우 기댓값은?
=1*0.3 + 0*0.7 = 0.3
7 홀드아웃
모형 평가 방법 중 주어진 원천 데이터를 랜덤하게 두 부뉴로 분리하여 교차검정을 실시하는 방법으로,
하나은 모형의 학습 및 구축을 위한 훈련용 자료로, 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법
8 ESD (Extreme Studentized Deviate Test)
이상값 탐색 기법 중 하나로 평균으로부터 K*표준편차만큼 떨어져 있는 값들을 이상값으로 판단하는 방법
'ADSP' 카테고리의 다른 글
ADSP_데이터 분석수준 진단 (0) | 2020.11.20 |
---|---|
ADSP_데이터마이닝 (0) | 2020.11.20 |
ADSP_21회복원::기출분석 (0) | 2020.10.31 |
ADSP_20회복원::기출분석 (0) | 2020.10.30 |
ADSP_19회복원::기출분석 (0) | 2020.10.30 |