03. 파생변수는 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수이다. 다음 중 파생변수의 설명으로 적절한 것은?
- 파생변수는 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다.
- 파생변수는 많은 모델에서 공통적으로 많이 사용될 수 있다.
- 파생변수는 재활용성이 높다.
- 파생변수는 다양한 모델을 개발해야 하는 경우, 효율적으로 사용할 수 있다.
: 1번, 파생변수는 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수로 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발해야 한다.
10. 다음 중 결측치에 대한 설명으로 가장 부적절한 것은?
- 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다.
- 관측치가 있지만 실상은 디폴트값이 기록된 경우에도 결측치로 처리해야 하는 것이 바람직하다.
- 결측치가 있는 경우 다양한 대치 방법을 사용하여 완전한 자료로 만든 후 분석을 진행할 수 있다.
- 결측치가 20% 이상인 경우에는 해당 변수를 제거하고 분석해야 한다.
: 2번, 관측치가 기록된 값을 결측치로 처리하여 분석에 활용하는 것은 옮지 않다. 디폴트 값이 기록된 경우라도 그 값의 의미를 가지고 있기 때문에 결측치로 처리하면 분석에 큰 오류로 작용할 수도 있다.
12. 결측값은 관측되어 얻어지는 실험 자료에서 종종 나타나는 현상이다. 결측값을 분석할 수 있는 통계분석 방법론으로 대치법이 있다. 다음 중 결측값을 처리하는 방법에 대한 설명 중 부적절한 것은?
- complete Analysis는 불완전 자료를 모두 삭제하고 완전한 관측치만으로 자료를 분석하는 방법이다. 그러나 부분적 관측자료를 사용하므로 통계적 추론의 타당성 문제가 있다.
- 평균대치법은 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석하는 방법이다.
- 단순확률대치법은 평균대치법에서 추정량 표준오차의 과소 추정문제를 보완하고자 고안된 방법이다.
- 다중대치법은 단순대치법을 한번하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만들어서 분석하는 방법이다. 추정량의 과소추정이나 계산의 난해성 문제가 보완된 방법이다.
: 4번, 다중대치법은 추정량의 표준오차의 과소추정 또는 계산의 난해성 문제가 보완된 방법이다.
17. R에서 반복문을 다중으로 사용할 경우 계산 시간이 현저하게 떨어지는 단점이 있다. 다음 함수 중 multi-core를 사용하여 반복문을 사용하지 않고도 매우 간단하고 빠르게 처리할 수 있는 데이터 처리 함수를 포함하고 있는 패키지로 가장 적절한 것은?
- plyr
- sqldf
- caret
- party
: 1번, plyr는 데이터 처리에 필요한 R 패키지로 데이터를 분할하고 분할된 결과에 함수를 적용한 뒤 결과를 재조합하는 함수를 포함한다.
20. 평균으로부터 t standard deviation 이상 떨어져 있는 값들을 이상값(아웃라이어)으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘은?
: ESD (Extreme Studentized Deviation)
'2022 하계 모각코 캠프 (ADsP)' 카테고리의 다른 글
[모각코] 8/13 기초 통계분석 (0) | 2022.08.14 |
---|---|
[모각코] 8/10 통계분석의 이해 (0) | 2022.08.11 |
[모각코] 8/3 Day 12~14 (3과목) (0) | 2022.08.03 |
[모각코] 7/30 2과목 실전 문제 풀기 (0) | 2022.07.31 |
[모각코] 7/27 데이터 분석(3과목) + 스몰토크 (0) | 2022.07.28 |