본문 바로가기

2022 하계 모각코 캠프 (ADsP)

[모각코] 8/6 3과목 3장 실전 문제 풀기 - 오답노트

03. 파생변수는 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수이다. 다음 중 파생변수의 설명으로 적절한 것은?

  1. 파생변수는 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다.
  2. 파생변수는 많은 모델에서 공통적으로 많이 사용될 수 있다.
  3. 파생변수는 재활용성이 높다.
  4. 파생변수는 다양한 모델을 개발해야 하는 경우, 효율적으로 사용할 수 있다.

: 1번, 파생변수는 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수로 매우 주관적일 수 있으므로 논리적 타당성을 갖추어 개발해야 한다.

10. 다음 중 결측치에 대한 설명으로 가장 부적절한 것은?

  1. 해당 칸이 비어있는 경우 결측치 여부는 알기 쉽다.
  2. 관측치가 있지만 실상은 디폴트값이 기록된 경우에도 결측치로 처리해야 하는 것이 바람직하다.
  3. 결측치가 있는 경우 다양한 대치 방법을 사용하여 완전한 자료로 만든 후 분석을 진행할 수 있다.
  4. 결측치가 20% 이상인 경우에는 해당 변수를 제거하고 분석해야 한다.

: 2번, 관측치가 기록된 값을 결측치로 처리하여 분석에 활용하는 것은 옮지 않다. 디폴트 값이 기록된 경우라도 그 값의 의미를 가지고 있기 때문에 결측치로 처리하면 분석에 큰 오류로 작용할 수도 있다.

12. 결측값은 관측되어 얻어지는 실험 자료에서 종종 나타나는 현상이다. 결측값을 분석할 수 있는 통계분석 방법론으로 대치법이 있다. 다음 중 결측값을 처리하는 방법에 대한 설명 중 부적절한 것은?

  1. complete Analysis는 불완전 자료를 모두 삭제하고 완전한 관측치만으로 자료를 분석하는 방법이다. 그러나 부분적 관측자료를 사용하므로 통계적 추론의 타당성 문제가 있다.
  2. 평균대치법은 자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석하는 방법이다.
  3. 단순확률대치법은 평균대치법에서 추정량 표준오차의 과소 추정문제를 보완하고자 고안된 방법이다.
  4. 다중대치법은 단순대치법을 한번하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만들어서 분석하는 방법이다. 추정량의 과소추정이나 계산의 난해성 문제가 보완된 방법이다.

: 4번, 다중대치법은 추정량의 표준오차의 과소추정 또는 계산의 난해성 문제가 보완된 방법이다.

17. R에서 반복문을 다중으로 사용할 경우 계산 시간이 현저하게 떨어지는 단점이 있다. 다음 함수 중 multi-core를 사용하여 반복문을 사용하지 않고도 매우 간단하고 빠르게 처리할 수 있는 데이터 처리 함수를 포함하고 있는 패키지로 가장 적절한 것은?

  1. plyr
  2. sqldf
  3. caret
  4. party

: 1번, plyr는 데이터 처리에 필요한 R 패키지로 데이터를 분할하고 분할된 결과에 함수를 적용한 뒤 결과를 재조합하는 함수를 포함한다.

20. 평균으로부터 t standard deviation 이상 떨어져 있는 값들을 이상값(아웃라이어)으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘은?

: ESD (Extreme Studentized Deviation)