1.기업 내부 데이터베이스 활용과 가장 거리가 먼 것은?
CRM = 제조부문
KMS = 유통부문
EAI = 금융부문
ITS(X 오답) = 지리/교통부문(사회기반 구조의 DB)
* 분야별 데이터베이스
기업 내)
제조분야
- ERP Enterprice Resource Planning 경영자원을 하나의 통합시스템
- BI 데이터를 정리해서 의사결정에 활용하는 프로세스
- CRM 고객중심자원
- RTE Real Time Enterprise 실시간 기업경영서비스
금융부문
- EAI Enterprise Application Integration app을 중앙집중적으로 통합,관리,사용
- EDW Enterprise Data Warehouse 기존의 DW를 전사적으로 확장한 모델. CRM 같은 분석 app위한 원천
유통부문
- KMS Knowledge Management System 지식관리시스템 (생산/산업사회에서 지식사회로의 이동과 연관)
- RFID Radio Frequency ID 주파수로 ID를 식별하는 전자태그 시스템
사회기반구조)
- EDI Electronic Data Interchange 무역 서류의 표준화된 양식을 전자적 신호로 바꿔 전송하는 시스템
- VAN Value Added Network 부가가치통신망.
- CALS Commerce At Light Speed 전자상거래 구축을 위한 제품 라이프사이클 전반 데이터 공유,교환 위한 시스템.
3. NoSQL 데이터베이스가 아닌 것은? NoSQL 비관계형 DB 에는 아래 3개가 속한다.
HBase
MongoDB
Cassandra
MySQL(X 오답) 관계형 DB에 해당한다.
4. 데이터웨어하우스데 대한 설명으로 부적절한 것은?
데이터웨어하우스는 사용자의 의사결정에 도움을 주기 위해 정보를 기반으로 제공하는 하나의 통합된 데이터 저장공간을 말한다.
데이터웨어하우스에서 관리하는 데이터들은 시간의 흐름에 따라 변화하는 값을 유지한다.
ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 정보를 적재한다.
데이터웨어하우스는 재무생산,운영 등과 같이 특정 조직의 특정 업무 분야에 초점을 맞추어 구축된다.(X)을 맞추는 것은 데이터 마트이다.
5. 비즈니스 모델에서 빅데이터 분석 방법과 사례를 연결한 것으로 부적절한것은?
택배차량을 어떻게 배치하는 것이 가장 비효율적인가 - 유형분석(X) 유형분석은 문서를 분류하거나, 조직의 그룹을 나눌때, 온라인 수강생들을 특성에 따라 분류할 때 사용한다. 사용자가 어떤 특성을 가진 집단에 속하는가 알아볼때.
고객의 만족도가 충성도에 어떤 영향을 미치는가 - 회귀분석
친분관계가 승진에 어떤 영향을 주는가 - 소셜네트워크 분석
7.데이터베이스의 일반적인 특징
통합, 저장, 공용, 변화
9. 데이터 분석 방법론의 구성 요소
절차
방법
도구와 기법,
템플릿과 산출물
(오답) 목적
11 분석과제 발굴방식 중에 하향식 접근법의 과제 도출 단계로 적잘한 것은?
Problem Discovery-Problem Definition - Solution Search - Feasibility Study
문제탐색-문제정의-해결방안탐색-타당성평가
12. 분석 기회 발굴 범위 확장 방버에 대한 설명으로 부적절한 것은?
거시적 관점의 메가트랜드에서는 현재의 조직 및 해당 산업에 폭넓게 영향을 미치는 사회/경제적 요인을 사회.기술.경제.환경.정치 영역으로 나누어서 좀 더 폭넓게 기회 탐색을 수행한다.
시장의 니즈탐색관점에서는 현재 수행하고 있는 사업에서의 직접 고객뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널 및 고객의 구매와 의사결정에 영향을 미치는 영향자들에 대한 폭넓은 관점을 바탕으로 분석 기회를 탐색한다.
역량의 재해석 관점에서는 현재 해당 조직 및 기업이 보유한 역량뿐만 아니라 해당 조직의 비즈니스에 영향을 끼치는 파트너 네트워크를 포함한 활용 가능한 역량을 토대로 폭넓은 분석 기회를 탐색한다.
경쟁자 확대 관점에서는 현재 수행하고 있는 사업영역의 직접 경쟁사 및 제품, 서비스를 중심으로 현 상황에 대한 분석 기회발굴의 폭을 넓혀서 탐색한다. (X) 경쟁자 확대 관점에서는 현재 수행하고 있는 사업영역의 직접경쟁사, 제품, 서비스 뿐만 아니라 대체제와 신규 진입자등으로 관점을 확대해야한다.
13. 분석 과제 우선순위 선정 매트리스
우선순위를 시급성에 둔다면 : 시급성현재+난이도하 - 시급성미래+난이도하 - 시급성미래+난이도상 순서로 결정한다.
우선순위 기준을 난이도에 둔다면 : 시급성현재+easy- 시급성현재difficult - 시급성미래difficult순으로 의사결정
15. 분석 마스터 플랜을 수립할 때 적용범위 및 방식에 대한 고려요소가 아닌 것은?
- 업무내재화 적용 수준
- 분석데이터 적용 수준
- 기술 적용 수준
- 투입비용수준(X)
분석 마스터 플랜을 수립할 때 우선순위 고려요소
전략적 중요도
비즈니스 성과/ROI
실행용이성
19. 아래 코드의 결과물은?
substr(x, start, stop)
20.
회귀모형은 출산율 변동의 multiplie r squared *100 만큼 설명한다.
유의 수준 0.05보다 작은 Pr(<|t|)값 => 유의수준 0.05 하에서 회귀무형은 유의적으로 출산율을 설명한다.
설명 변수 중 0.05보다 큰 p value값이 있는 경우, 해당 설명변수는 출산율 변동의 원인이 될 수 없다.
21.아래 프로그램으로 생성된 벡터xy에 대한 설명으로 옳지 않은 것은?
* xy는 문자형 벡터로, 문자형 벡터는 연산을 할 수 없다.
22. R에서 데이터 타입이 같지 않은 객체들을 하나의 객체로 묶어 놓을 수 있는 자료구조는? 리스트(list)
24. 모형평가지표
정분유율 = 양성, 음성이라고 판단되는 값(TP+TN)/실제 양성과 음성의 값(TP+FN+FP+TN)
오분유율 = 1-정분유율
민감도 = 양성이라고 판단되는 값(TP)/실제 양성의 값(TP+FN)
특이도 = 음성이라고 판단되는 값(TN)/실제 음성의 값(FP+TN)
정확도 =precision = 양성이라고 판단되는 값(TP)/TEST가 양성의 값(TP+FP)
F1=2*((정확도*리콜)/(정확도+리콜))=2*(1/(1/정확도)+(1/리콜))
특이도, 민감도(리콜) 은 실제 기준!!!!
정확도(precision)은 예측기준!
25. 사람, 상품에 관한 이해를 증가시키기 위해 데이터가 가지고 있는 특징을 나타내고
설명에 대한 답을 제공할 수 있는 데이터 마이닝의 기능은?
기술(Description) 정답!
군집(Clustering) 오답!!
27.CART
의사결정나무 분석을 위한 알고리즘이다.
분류(기준)변수와 분류기준값의 선택방법으로
목표변수가 이산형인 경우 지니계수,
목표변수가 연속형인 경우 분산 감소량을 사용(이진분리)하는 알고리즘이다. 불순도측도를 위해
최대 강점은 후보 나무들을 여러 개 생성하고 그 중에서 최적의 나무를 찾아내는 방법을 사용하는 것이다.
최적의 예측변수를 선택할 때 엔트로피 매트릭스 또는 지니 계수(이산형)를 사용한다.
* CHAID = 최적의 예측변수를 선택할 때 카이스퀘어 테스트를 사용한다. 범주형 자료에만 적용할 수 있다. 수치형 속성을 범주형으로 바꿔야 한다
28.
>>pca=princomp(data,cor=True)
>>summary(pca)
* 상관행렬(공분산행렬 아님) 사용하여 주성분 분석한거다.
29. R코드로 생성되는 행렬에서 일부원소를 추출하기 위한 코드 중 나머지 보기와 결과가 다른 것은?
30.
R에서 반복문을 다중으로 사용할 경우, 계산 시간이 현저하게 떨어지는 단점이 있다. 다음 함수 중 multi core를 사용하여 반복문을 사용하지 않고도 매우 간단하고 빠르게 처리할 수 있는 데이터 처리 함수를 포함하고 있는 패키지는?
plyr
31.신용카드 고객의 파산여부를 예측하기 위해 고객의 신용도, 나이, 직업 등의 변수를 사용하여 모델을 수립하려고 할 때, 다음 중 사용 가능한 모형이 아닌것은?
로지스틱회귀모형 종속변수 이산형
랜덤포레스트 종속변수 이산형
서포트벡터머신 종속변수 이산형
선형회귀모형(X) 종속변수가 연속형인 경우에 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 모형이다.
32. 주성분분석에 대한 설명으로 부적절한것은?
차원축소방법 중 하나이다.
비지도학습에 해당한다.
이론적으로 주성분 산 상관관계가 없다.
원변수의 선형결합 중 가장 분산이 작은 것을 제 1주성분으로 설정한다(X) 변동을 최대로 설명해주는 방향으로의 변수 선형결합이다.
36.
순서척도 : 측정대상의 서열관계를 관측하는 척도로, 만족도, 선호도, 학년, 신용등급 를 나타낸다.
37.
시그모이드 함수(인공신경망 모형에서 활성함수이다)의 결과값은 0~1 사이의 확률값이다.
39. 반응변수가 범주형인 경우에 적용되는 회귀분석 모형은?
로지스틱 회귀모형
설명변수가 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지 추정하여 추정확률에 따라 분류.
단순회귀모형(X)
다중회귀모형(X)
더미변수를 이용한 회귀모형(X)
40.
데이터 마이닝 기법 중 항목들 간의 조건-결과 식으로 표현되는 유용한 패턴을 발견해내는 방법은?
연관규칙
1. OLAP = 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어
BI Business Intelligence = 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
Analytics = 의사결정을 위한 통계적이고 수학적인 분석인 분석에 초점을 둔 기법
3.프레이밍framing 효과
= 합리적 의사결정을 방해하는 요소로 표현방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상
4. 데이터 거버넌스 체계에서 데이터 저장소 관리란 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소로 구성된다. 저장소는 데이터 관리체계지원을 위한 워크플로우 및 관리용 응용소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 한다. 또한 데이터 구조 변경에 따른 사전영향평가도 수행되어야 효율적인 활용이 가능하다.
6. 최단연결법 : 거리가 가장 가까운 데이터를 묶어서 군집을 형성한다.
7. 회귀분석의 가정 중 정상성이란, 오차/잔차의 분포 가 정규분포를 이뤄야함을 가정한다.
8. 층화추출법
상당히 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법.
이질적인 모집단의 원소들로 서로 유사한 것끼리 몇개의 층을 나눈 후, 각 계층에서 표본을 랜덤하게 추출한다.
* 표본 추출 방법에 대한 설명으로 잘못된 것은?
표본의 크기를 결정할 때 가장 중요한 부분은 표본이 모집단을 얼마나 설명하는지에 대한 대표성의 확보다.
단순램덤추출법은 모집단에서 샘플을 뽑을 때 각각의 샘플이 모두 동등한 확률을 가지고 무작위로 추출되는 방법이다.
층화추출법은 모집단을 몇 개의 집단으로 구분하고, 각 집단의 크기와 분산을 고려해서 각 집단마다 샘플을 추출한다.
ex1) 찬반의 비율을 알고 싶을 때는 20대층, 30대층, 40대층 연대별로 나누어 할당된 인수를 임의추출,
ex2) 서울시에서 중3 수학 성취테스트의 평균점을 추정하고 싶을 경우, 시를 몇 개층으로 구획하고, 각 구획에서 할당된 수만큼 표본을 임의추출
ex3) 한 학교에서 1학년층, 2학년층, 3학년층 나눈 후 각 층으로부터 무작위 추출 -> 군집내 동질적, 집단간 이질적.
계통추출법은 모집단을 군집으로 구분하고 선정된 군집의 원소를 모두 샘플로 추출한다.(X)
집락추출법은 모집단을 군집으로 구분하고 선정된 군집의 원소를 모두 샘플로 추출한다.
ex1) 한 학교에서 1반 군집에 1학년~3학년 다 포함, 2반 군집에도 1학년~3학년 다 포함되도록 군집 만든다. 군집내 이질적,집단간 동질적.
계통추출법은 모집단의 전요소에 일렬번호를 붙이고 첫표본은 임의추출 후 일정한 간격으로 샘플을 추출한다.
9. 배깅
주어진 자료에서 여러 개의 붓스트랩 자료를 생성하고, 각 붓스트랩 자료에 예측모형을 만든 후 결합해서 최종 예측모형을 만든다.
반복추출 방법을 사용하기 때문에 같은 데이터가 한 표본에 의해 여러번 추출될 수 있고, 어떤 데이터는 추출되지 않을 수도 있다.
동일한 크기의 표본을 랜덤 복원 추출하여 각 ㄱ표본에 예측모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법이다.
* 부스팅
예측력 약한 모형들을 결합해서 강한 예측모형을 만든다.
붓스트랩 표본을 구성하는 재표본과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법이다.
* 랜덤포레스트 - 의사결정나무모형이 분산이 크다는 점을 고려해서 배깅보다 더 많은 무작위성을 추가한 방법이다. 약한 학습기들으 생성하고 이를 선형 결합해서 최종 학습기를 만든다.
* 앙상블 모형은 훈련을 한 뒤 예측을 한다. 교사학습법이다.
10. 홀드아웃
모형 평가 방법 중 주어진 원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검증을 실시하는 방법으로
하나는 모형의 학습 및 구축을 위한 훈련용 자료료, 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법은 무엇인가?
데이터마이닝을 위해 데이터를 분할하는 방법이다.
주로 학습용과 시험용으로 분리하여 사용한다.
주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법이다.
데이터 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우에 사용.
데이터를 무작위로 두 집단으로 분리해서, 실험데이터와 평가데이터로 설정하고 검정을 실시하는 모형 평가 방법이다.
'ADSP' 카테고리의 다른 글
ADSP_22회복원::기출분석 (0) | 2020.10.31 |
---|---|
ADSP_21회복원::기출분석 (0) | 2020.10.31 |
ADSP_19회복원::기출분석 (0) | 2020.10.30 |
ADSP_18회복원::기출분석 (0) | 2020.10.30 |
ADSP_모의고사1,2 (0) | 2020.10.30 |