본문 바로가기

ADSP

ADSP_21회복원::기출분석

1. 빅데이터가 만들어내는 변화와 가장 거리가 먼 것은?

  • 가치가 있을 것이라고 예상되는 특정한 정보만 모아서 처리하는 것이 아니라 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아내는 방식이 중요해진다.
  • 데이터의 규모가 증가함에 따라 사소한 몇개의 오류데이터는 분석결과에 영향을 미치기 때문에 데이터세트에 포함해 분석해도 상관 없는 경우가 많아진다.
  • 인과관계의 규명 없이 상관관계 분석 결과만으로도 인사이트를 얻고 이를 바탕으로 수익을 창출할 수 있는 기회가 점차 늘어나고 있다.
  • 데이터의 양이 증가하고 유형이 복잡해짐에 따라 수많은 데이터 중에서 분석에 필요한 데이터를 선정하기 위해 적요한 표본조사 기법의 중요성이 대두되고 있다(X) 빅데이터로 데이터 수집비용 감소, 클라우드 컴퓨팅 기술발전으로 데이터 처리비용 감소했다. 기존의 표본조사-> 현재는 전수조사

 

2. 빅데이터 현상이 출현하게 된 배경과 가장 거리가 먼 것은?

  • M2M. Iot와 같은 통신 기술의 발전 통계 도구들의 발전, 모바일 혁명 등 기술 발전
  • 하둡 등 분산처리 기술의 발전 기술 및 통계 도구들의 발전
  • 트위터, 페이스북 등 sns의 급격한 확산 고객데이터 축적
  • 의료정보 등 공공데이터 개방 가속화(X)

 

3. 데이터베이스 설계절차가 적절하게 된 배치는?

  • 요구사항분석>개념적설계>논리적설계>물리적설계

 

5. 감성분석

  • 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 빅데이터 활용 기본 테크닉
  • 고객의 주관적 평가를 측정할 때 수행
  • 문장이나 단어가 분석의 대상이 됨
  • 사용자간의 사회적 관계를 알아낼 때(X, 오답)

 

8. 데이터유형이 다른 하나는

  • 개인 페이스북에 올린 어느 회사 제품에 대한 사용 후기글 - 형태가 없는 비정형 데이터
  • 어느 포털 사이트에서 하루 동안 언급된 모든 검색어 - 형태가 없는 비정형 데이터
  • 콜센터에 접수된 어느 고객의 제품 불만사항을 녹음한 음성파일 - 형태가 없는 비정형 데이터
  • (오답) 어느 기계에서 작동하는 동안 발생한 소음을 데시벨 단위로 기록한 센서 데이터 - 형태(스키마, 메타데이터)가 있는 비정형 데이터

 

10. 데이터 분석 프로젝트는 초기에 의도했던 결과가 나오기 쉽지 않기 때문에 많은 시간이 소요될 수 있으며, time boxing으로 일정관리를 진행하는 것이 필요하다. 철저한 통제와 관리가 필요한 것은 아니다.

 

11. 분석과제의 특징 중

  • Accuracy = 모델과 실제 값과의 차이를 평가하는 정확도를 의미
  • Precision = 모델을 지속적으로 반복했을 때 편차의 수준. 일관적으로 동일한 결과를 제시한다는 의미

분석의 활용적인 측면에서는 accuracy가 중요, 안정성 측면에서는 precision이 중요. trade off 되는 경우가 많음

 

 

12. 기업에서 기존에 수행했던 데이터 분석 또는 BI와 비교하여, 빅데이터 분석에 대한 키워드를 가장 적잘하게 표현한 것은?

  • Information, Ad hoc Report, Alerts, Clean Data

 

13. 분석의 주제는 분석의 대상과 방식에 따라 나뉜다.

  • OO OPTIMIZATION
  • OX SOLUTION
  • XO INSIGHT
  • XX DISCOVERY

 

14. 빅데이터 특징을 고려한 분석 ROI 요소와 분석우선순위 평가기준에 대한 설명으로 가장 부적절 한 것은?

 

  • 분석 난이도는 분석 준비도와 성숙도 진단 결과에 따라 해당 기업의 분석수주을 파악하고 이를 바탕으로 결정된다.
  • 시급성이 높고 난이도가 높은 분석과제는 경영진 또는 실무담당자의 의사결정에 따라 적용 우선순위를 조정할 수 있다.
  • 시급성이 높고 난이도가 낮은 분석과제는 우선순위가 높다.
  • 분석과제의 우선순위 평가에서 시급성은 전략적 중요도, 데이터 수집비용(X) 등을 평가하고 전략적 중요도와 가치
  • 난이도는 분석수준과 복잡도가 평가요소이다.(X) 데이터 획득/저장/가공비용, 분석적용비용, 분석수준

 

15. 다음 중 CRISP-DM 분석 방법론에서 업무이해(Business Understnading)에 해당하는 것은?

업무목적 파악 - 상황파악- 데이터 마이닝 목표설정 - 프로젝트 계획 수립

 

17. 연속형 확률 변수의 분포 중 정규분포로부터 유도되었으며, 정규분포의 평균을 측정할 때 사용되는 분포로 두 집단의 평균차이 검증에 활용되는 분포는?

T분포 연속형 확률분포 중 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따른다. 두 집단의 평균이 동일한지 알고자 할때 검정 통계량으로 활용한다.

 

18. 이산형 확률 분포 중 하나로 개별 사건이 두 가지 경우만 존재하며, 각 사건이 성공할 확률이 일정하고,

전,후 사건에 독립적인 특수한 상황의 확률 분포를 나타낸 것?

- 베르누이 확률분포 https://jungmoonga.tistory.com/62

 

19. 확실하게 증명하고 싶은 가설, 뚜렷한 증거가 있어야 채택할 수 있는 가설은?

대립가설

 

20. 비모수적 검정 방법 중 하나로 표본들이 서로 관련되어 있는 경우, 짝지어진 두개의 관찰치들의 크고 작음을 표시하여 그 개수를 가지고 두 분포의 차이가 있는지에 대한 가설을 검증하는 방법?

- 부호검정(sign test) https://jungmoonga.tistory.com/63

 

21. 소득수준과 같이 정규분포를 따르지 않고 오른쪽 꼬리가 긴 분포를 나타내는 자료의 평균과 중앙값의 관계는?

평균이 중앙값보다 큰 경향을 보인다.

 

 

 

22. 중앙50%의 데이터들이 흩어진 정도를 의미하는 것은? 사분위범위

 

23. 한 변수를 단조증가함수로 변환하여 다른 변수를 나타낼 수 있는 정도를 나타내며, 두 변수의 선형관계의 크기 뿐만 아니라 비선형적인 관계도 나타낼 수 있는 상관계수는? 순위를 기준으로 상관관계 측정.

스피어만 상관계수

 

(오답)

자카드 인덱스 :  집합 사이의 유사도를 측정하는 방법 중 하나이다. 자카드 계수(Jaccard coefficient) 또는 자카드 유사도(Jaccard similarity)라고도 한다. 자카드 지수는 0과 1 사이의 값을 가지며, 두 집합이 동일하면 1의 값을 가지고, 공통의 원소가 하나도 없으면 0의 값을 가진다. 자카드 지수는 아래의 식으로 정의된다.(출처 위키피디아)

 

 

코사인 유사도 계층적 군집(두 개체 간의 거리에 기반하여 군집을 형성해나간다) 내적공간의 두 벡터간 각도의 코사인값을 이용하여 측정된 벡터간의 유사한 정도를 의미한다. 각도가 0°일 때의 코사인값은 1이며, 다른 모든 각도의 코사인값은 1보다 작다. 따라서 이 값은 벡터의 크기가 아닌 방향의 유사도를 판단하는 목적으로 사용되며, 두 벡터의 방향이 완전히 같을 경우 1, 90°의 각을 이룰 경우 0, 180°로 완전히 반대 방향인 경우 -1의 값을 갖는다. 이 때 벡터의 크기는 값에 아무런 영향을 미치지 않는다. 코사인 유사도는 특히 결과값이 [0,1]의 범위로 떨어지는 양수 공간에서 사용된다. 흔히 다차원의 양수 공간에서의 유사도 측정에 자주 이용된다. 예를 들어 정보 검색  텍스트 마이닝 분야에서, 단어 하나 하나는 각각의 차원을 구성하고 문서는 각 단어가 문서에 나타나는 회수로 표현되는 벡터값을 가진다. (출처 위키피디아)

 

24. 훈련용 데이터 집합으로부터 미리 모형을 학습하는 것이 아니라 새로운 자료에 대한 예측 및 분류를 수행할 때 모형을 구성하는 LAZY LEARNING 기법을 사용하는 것은?

최근접이웃 KNN모형

(오답)

유전 알고리즘 : 유전 알고리즘은 생물체가 환경에 적응하며 진화하는 모습을 모방하여, 최적해를 찾아내는 검색 방법이다. 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간데에 방송해야하는가?연료 효율적인 차를 개발하려면 어떤 원자재와 엔지니어링을 결합해야 하는가? 최적 매커니즘 찾아가는 방법!

 

25. 입력층이 직접 출력층에 연결되는 단층신경망(SINGLE LAYER NEURAL NETWORK)에서

활성함수 시그모이드 함수로 사용하면 로지스틱 회귀모형과 작동원리가 유사해진다.

 

S자형 곡선 또는 시그모이드 곡선을 갖는 수학 함수이다.

여러 종류의 시그모이드 함수는 인공 뉴런 활성화 함수로 사용되었다. 분류문제에서 결과값을 0 또는 1로 내보내기 위해 사용한다. 통계학에서도 로지스틱 분포, 정규 분포, 스튜던트 t 분포 등의 누적 분포 함수로 시그모이드 곡선이 자주 등장한다. 시그모이드 함수는 가역 함수로, 그 역은 로짓 함수다.

 

 

 

딥러닝 네트워크에서 입력 신호의 총합을 출력 신호로 변환하는 함수를 일반적으로 활성화 함수(Activation Function)이라고 한다.

(오답)

ReLU함수 : 0보다 작은 값이 나온 경우 0을 반환하고, 0보다 큰 값이 나온 경우 그 값을 그대로 반환함.

tanh함수: sigmoid 함수를 재활용하기 위한 함수. sigmoid의 범위를 -1에서 1로 넓혔다.

 

26. 앙상블 모형은 여러 모형의 결과를 결합함으로써 단일 모형으로 분석했을 때보다 신뢰성 높은 예측값을 얻을 수 있다. 다음 중 앙상블 모형의 특징으로 옳지 않은 것은?

  • 이상값에 대한 대응력이 높아진다.
  • 전체적인 예측값의 분산을 감소시켜 정확도를 높일 수 있다.
  • 모형의 투명성이 떨어져 원인 분석에는 적합하지 않다.
  • 각 모형의 상호 연관성이 높을수록 정확도가 향상된다.(X) 각 모형의 상호 연관성이 높을수록 정확도는 떨어진다.

 

27. 의사결정나무를 앙상블 하는 방법 중 전체 변수 집합에서 부분 변수집합을 선택하여 각각의 데이터 집합에 대해 모형을 생성한 후 결합하는 방식은?

랜덤포레스트 의사결정나무가 분산이 크다는걸 고려한 방식. 배깅이나 부스팅보다 더 많은 무작위성을 준다.

 

28. 범주 불균형 문제(case imbalance problem)

분류 모형을 구성하는 경우 예측 실패의 비용이 큰 분류 분석의 대상에 대한 관측치가 현저히 부족하여 모형이 제대로 학습되지 않는 문제가 있다. (과소적합X)

 

과소적합 : 모델이 현실보다 지나치게 단순할 경우에 발생한다.

예를 들어 주식 차트는 정치, 경제, 고도의 심리와 전략 등으로 정해지는 것인데 이를 선형 모델로 잘 예측할 수 있을까?

택도 없다. 학습을 끝내도 MAE(Mean Average Error)가 상당하여, 유의미한 학습을 했다고 볼 수 없을 것이다.

​과소 적합 문제를 해결하는 방법은 과대 적합 문제를 해결하는 방법과 반대의 방향으로 이루어진다.

더 복잡한 모델 선택하기, 모델 제약 감소시키기 등.

 

 

29. 분류모형의 평가기준 중 정확도와 재현율은 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 있다. 이런 효과를 보정하여 하나의 지표로 나타낸 Fβ 지표에서 β =2일 경우 옳은 것은?

재현율에 2배한만큼의 가중치를 부여하여 조화 평균한다.

 

 

 

30. 인공신경망 모형에서 역전파를 진행함에 따라 각 노드를 연결하는 가중치의 절대값이 커져 더 이상 조정이 이루어지지 않아 과소적합이 발생되는 문제는?

포화문제

 

31. 군집화 기법 중 특정 공간에서 가까이 잇는 데이터가 많은 지역을 중심으로 클러스터를 구성하며

비교적 비어있는 지역을 경계로 하는 군집기법. 임의적인 모양의 군집탐색에 효과적은 기법은?

밀도기반 군집 기법

 

32. 군집 모형 평가 기준 중 하나이며, 군집의 밀집 정도를 계산하는 방법으로

군집 내의 거리와 군집간의 거리를 기준으로 군집 분할의 성과를 평가하는 것은?

실루엣계수

 

33. 이상값 탐색을 위해 상자그립(boxplot)을 사용하려 한다. 아래와 같은 데이터 요약 결과가 있을 때, 다음 중 이상값을 판단하는 하한선과 상한선은?

min.=0

1st qu.=4

median=7

mean=9.615

34d qu.=12

max.=39

(12-4)*1.5를 q1과 q3에 각각 빼거나 더한다. -8, 24

 

34. 계층적 군집은 군집의 개수를 미리 정하지 않고, n개의 군집으로 시작해 점차 군집의 개수를 줄여나가 최종적으로 하나의 군집만이 남을 때까지 가장 가까운 두 군집들을 점진적으로 병합해 나가는 방법이다.

 

35. 자기 조직화 지도

: 경쟁학습으로 각각의 뉴런이 입력벡터와 얼마나 가까운가를 계산하여 연결강도를 반복적으로 재조정하여 학습한다.

이 과정을 거치면서 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 된다.

승자 독식 구조로 인해 경쟁층에는 승자 뉴런만이 나타나며 승자와 유사한 연결강도를 갖는 입력 패턴이 동일한 경쟁 뉴런으로 배열된다.

 

37.k평균군집은 단순하고 빠르게 수행될 수 있지만

변수의 크기에 영향을 받음에 따라 군집 분석을 수행하기 전에 정규화 과정이 필수적이다.

정규화 방법 중 원데이터의 분포를 유지하면서 [0,1]값을 가지도록 정규화가 가능한 방법은

min-max 정규화

최소-최대 정규화는 데이터를 정규화하는 가장 일반적인 방법이다. 모든 feature에 대해 각각의 최소값 0, 최대값 1로, 그리고 다른 값들은 0과 1 사이의 값으로 변환하는 거다. 이상치(outlier)에 너무 많은 영향을 받는다는 거다.

예를 들어, 100개의 값이 있는데 그 중 99개는 0과 40 사이에 있고, 나머지 하나가 100이면 어떨까. 그러면 99개의 값이 모두 0부터 0.4 사이의 값으로 변환된다. 모든 feature들의 스케일이 동일하지만, 이상치(outlier)를 잘 처리하지 못한다

 

 

 

z-score 정규화

feature의 값이 평균과 일치하면 0으로 정규화되겠지만, 평균보다 작으면 음수, 평균보다 크면 양수로 나타난다. 이 때 계산되는 음수와 양수의 크기는 그 feature의 표준편차에 의해 결정되는 거다. 그래서 만약 데이터의 표준편차가 크면(값이 넓게 퍼져있으면) 정규화되는 값이 0에 가까워진다. 이상치의 영향을 덜 받는다. 이상치(outlier)를 잘 처리하지만, 정확히 동일한 척도로 정규화 된 데이터를 생성하지는 않는다

 

39. 오분류표에서 F1계산

F1=2*(P*R)/(P+R)

 

 

1. 데이터사이언스

 

데이터사이언스는 데이터로부터 의미있는 정보를 추출해내는 학문으로, 통계학과는 달리 정형/비정형을 막론하고 다양한 유형의 데이터를 분석대상으로 한다. 또한 분석에 초점을 둔 데이터마이닝과는 달리 데이터사이언스는 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함하는 포괄적인 개념이다..(주관식)

 

 

2. 은행에서 대출 심사를 할 때, 소득, 나이, 카드사용액 등 해당 고객의 정보를 바탕으로 그 고객이 대출 상환을 잘하는 집단에 속할지 그렇지 않을지 예측할 수 있다 - 빅데이터 활용 기본 테크닉 중 어떤 분석?

= 유형분석(분류분석).(주관식)

 

 

3. 분석과제 프로세스는 크게 과제발굴과 과제수행으로 나누어진다.

조직이나 개인이 도츨한 분석이 아이디어를 발굴하고

이를 과제화하여 분석과제 풀로 관리하면서 분석과제가 확정되면 팀구성, 분석과제실행, 분석과제진행관리,

분석과제 결과 공유/개선의 분석과제 관리 프로세스를 수행한다..(주관식)

 

 

4. 디자인 사고

상향식 접근 방식의 발산단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식의 수렴단계를

반복하여 과제를 발굴하는 방법.(주관식)

 

 

6. 다차원척도법

객체간 근접성을 시각화.

개체들 사이의 유사성/비유사성을 측정하여 2차원 공간상에 점으로 표현하는 분석방법.

여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법.(주관식)

 

 

7. 와드연결법

계층적 군비을 수행할 때 두 군집간의 거리를 측정하는 방법 중 군집 내의 오차제곱합에 기초하여 군집을 수행한다..(주관식)

 

 

10. 향상도

연관규칙의 측정 지표 중 도출된 규칙의 우수성을 평가하는 기준으로

두 품목의 상관관계를 기준으로 도출된 규칙의 예측력 평가 지표

.(주관식)

'ADSP' 카테고리의 다른 글

ADSP_데이터마이닝  (0) 2020.11.20
ADSP_22회복원::기출분석  (0) 2020.10.31
ADSP_20회복원::기출분석  (0) 2020.10.30
ADSP_19회복원::기출분석  (0) 2020.10.30
ADSP_18회복원::기출분석  (0) 2020.10.30