본문 바로가기

2022 하계 모각코 캠프 (ADsP)

[모각코] 8/10 통계분석의 이해

1절. 통계분석의 이해

1. 통계

- 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현

- 조사 또는 실험을 통해 데이터를 확보, 조사대상에 따라 총조사와 표본조사로 구분함

2. 통계자료의 획득 방법

가. 총 조사/ 전수조사

나. 표본조사

- 모집단, 원소(모집단을 구성하는 개체), 표본, 모수(모집단에 대한 정보)

- 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확히 명시해야 함

 

다. 표본 추출 방법

- 표본 추출 방법에 따라 분석결과의 해석은 큰 차이가 발생함

1) 단순랜덤 추출법

: 각 샘플에 번호를 부여, 임의의 n개를 추출하는 방법. 각 샘플은 선택될  확률이 동일함(복원, 비복원 추출)

2) 계통추출법

: 번호를 부여한 샘플을 나열하여 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후에 표본을 선택

: 즉, 임의 위치에서 매 k번째 항목을 추출하는 방법

3) 집락추출법

: 군집을 구분하고 군집별로 단순랜덤 추출법을 수행한 후, 모든 자료를 활용하거나 샘플링하는 방법

4) 층화추출법

: 이질적인 원소들로 구성된 모집단에서 각 계층을 고루 대표할 수 있도록 표본을 추출하는 방법, 

: 유사한 원소끼리 몇 개의 층으로 나누어 각 층에서 랜덤 추출하는 방법

 

라. 측정

1) 개요

- 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것

 

2) 측정 방법

명목척도 측정 대상이 어느 집단에 속하는지 분류할 때 사용 질적척도
순서척도 측정 대상의 서열관계를 관측하는 척도
구간척도 측정 대상이 갖고 있는 속성의 양을 측정하는 것으로,
구간이나 구간 사이의 간격이 의미가 있는 자료
양적척도
비율척도 간격에 대한 비율이 의미를 가지는 자료,
절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도

3. 통계분석

가. 정의

- 특정한 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상 집단에 대한 정보를 구하고, 적절한 통계분석 방법을 이용해 의사결정을 하는 과정

나. 기술통계

- 주어진 자료로부터 어떠한 판단이나 예측과 같은 주관이 섞일 수 있는 과정을 배제하여 통계집단들의 여러 특성을 수량화하여 객관적인 데이터로 나타내는 통계분석 방법론

- 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것을 의미함

다. 통계적 추론

- 수집된 자료를 이용해 대상 집단에 대한 의사결정을 하는 것으로, 샘플로 모집단을 추정하는 것을 의미

1) 모수추정

: 표본집단으로부터 모집단의 특성인 모수를 분석하여 추론

2) 가설검정

: 대상집단에 대해 특정한 가설을 설정한 후 그 가설이 옳은지 그른지 채택여부를 결정하는 방법론

3) 예측

: 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용

4. 확률 및 확률분포

이산형 확률변수

베르누이 확률분포

- 예시: 추신수 선수가 안타를 칠 확률은 베르누이 분포를 따름

이항분포

베르누이 시행을 n번 반복했을 때, k번 성공할 확률

기하분포

성공확률이 p인 베르누이 시행에서 첫번쨰 성공이 있기까지 x번 실패할 확률

다항분포

이항분포를 확장한 것으로, 세 가지 이상의 결과를 가지는 반복 시행에서 발생하는 확률 분포

포아송분포

- 시간과 공간 내 발생하는 사건의 발생획수에 대한 확률분포

 

연속형 확률변수

지수분포

어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포

t-분포

- 표준정규분포와 같이 평균이 0을 중심으로 좌우가 동일한 분포를 따름

- 표본의 크기가 적을 때는 표준정규분포를 위에서 눌러 높은 것과 같은 형태를 보이지만,

  표본이 커져서 자유도가 증가하면 표준정규분포와 거의 같은 분포가 됨

- 데이터가 연속형일 경우 활용

- 두 집단의 평균이 동일한지 알고자 할 때, 검정통계랑으로 활용

F-분포

- 두 집단 간 분산의 동일성 검정에 사용되는 검정 통계량의 분포

- 확률변수는 항상 양의 값만을 갖고, 자유도를 2개 가지고 있으며, 자유도가 커질수록 정규분포에 가까워짐

5. 추정과 가설검정

추정의 개요

1) 확률표본

- 확률분포는 분포를 결정하는 평균, 분산 등의 모수를 가지고 있음

- 특정한 확률분포로부터 독립적으로 반복해 표본을 추출하는 것

- 각 관찰값들은 서로 독립적이며 동일한 분포를 가짐

2) 추정

- 표본으로부터 미지의 모수를 추측하는 것

- 추정은 점추정과 구간추정으로 구분됨

가) 점추정

- 모수가 특정한 값일 것이라고 추정하는 것

- 표본의 평균, 중위수, 최빈값 등을 사용함

나) 구간추정

- 점추정의 정확성을 보완하기 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언하는 것

- 항상 추정량의 분포에 대한 전제가 주어져야 함

- 구해진 구간 안에 모수가 있을 가능성의 크기가 주어져야 함

 

가설검정

1) 정의

- 모집단에 대한 어떤 가설을 설정한 뒤에 표본관찰을 통해 그 가설의 채택여부를 결정하는 분석방법

- 표본 관찰 또는 실험을 통해 귀무가설과 대립가설 중에서 하나를 선택하는 과정

- 귀무가설이 옳다는 전제하에 검정통계량 값을 구한 후에 이 값이 나타날 가능성의 크기에 의해 귀무가설의 채택여부를 결정함

 

가) 귀무가설

: 비교하는 값과 차이가 없다, 동일하다를 기본개념으로 하는 가설

나) 대립가설

: 뚜렷한 증거가 있을 때 주장하는 가설

다) 검정통계량

: 관찰된 표본으로부터 구하는 통계량, 검정 시 가설의 진위를 판단하는 기준

라) 유의수준

: 귀무가설을 기각하게 되는 확률의 크기로 귀무가설이 옳은데도 이를 기각하는 확률의 크기를 말함

마)기각역

: 귀무가설이 옳다는 전제 하에서 구한 검정통계량의 분포에서 확률이 유의수준 알파인 부분

6. 비모수 검정

: 통계적 검정에서 모집단의 모수에 대한 검정은 모수적 검정과 비모수적 검정으로 구분함

 

가. 모수적 방법

- 검정하고자 하는 모집단의 분포에 대한 가정을 하고, 그 가정하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법

나. 비모수적 방법

- 자료가 추출된 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하는 방법

- 관측된 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용

- 관측된 자료의 수가 많지 않거나, 자료가 개체간의 서열관계를 나타내는 경우에 이용

다. 모수적검정과 비모수검정의 차이점

1) 가설의 설정

모수적 검정은 가정된 분포의 모수에 대해 가설을 설정하는 반면, 비모수 검정은 가정된 분포가 없으므로 가설은 단지, '분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다'와 같이 분포의 형태에 대해 설정함

2) 검정방법

모수적 검정은 관측된 자료를 이용해 구한 표본 평균, 표본분산 등을 이용해 검정을 실시하는 반면, 비모수 검정은 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정함