3절. 회귀분석
1. 회귀분석의 개요
가. 회귀분석의 정의
- 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
- 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법
- 독립변수의 개수가 하나이면 단순선형회귀분석, 독립변수의 개수가 두 개 이상이면 다중선형 회귀분석으로 분석할 수 있음
나. 회귀분석의 변수
- 영향을 받는 변수 y: 반응변수, 종속변수, 결과변수
- 영향을 주는 변수 x: 설명변수, 독립변수, 예측변수
다. 선형회귀분석의 가정
1) 선형성
- 입력변수와 출력변수의 관계가 선형
2) 등분산성
- 오차의 분산이 입력변수와 무관하게 일정
- 잔차플롯(점산도)를 활용하여 잔차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 등분산성 가정을 만족하게 됨
3) 독립성
- 입력변수와 오차는 관련이 없음
- 자기상관을 알아보기 위해 Durbin-Waston 통계량을 사용하며 주로 시계열 데이터에서 많이 활용
4) 비상관성
- 오차들끼리 상관이 없음
5) 정상성(정규성)
- 오차의 분포가 정규분포를 따름
라. 그래프를 활용한 선형회귀분석의 가정 검토
1) 선형성
: 선형회귀모형에서는 설명변수와 반응변수가 선형적 관계에 있음이 전제되어야 함
2) 등분산성
가) 등분산성을 만족하는 경우
: 설명변수에 대한 잔차의 산점도를 그렸을 때, 설명변수 값에 관계없이 잔차들의 변동성(분산)이 일정한 형태를 보이면 선형회귀분석의 가정 중 등분산성을 만족한다고 볼 수 있음
나) 등분산성을 만족하지 못하는 경우
: 설명변수가 커질수록 잔차의 분산이 줄어드는 이분산의 형태
: 2차항 설명변수가 필요
: 새로운 설명변수가 필요
3) 정규성
: Q-Q Plot을 출력했을 때, 잔차가 대각방향의 직선의 형태를 지니고 있으면 잔차는 정규분포를 따른다고 할 수 있음
마. 가정에 대한 검증
1) 단순선형회귀분석
: 입력변수와 출력변수간의 선형성을 점검하기 위해 산점도를 확인함
2) 다중선형회귀분석
: 선형회귀분석의 가정인 선형성, 등분산성, 독립성, 정상성이 모두 만족하는 지 확인해야 함
2. 단순선형회귀분석
: 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법
가. 회귀분석에서의 검토사항
1) 회귀계수들이 유의미한가?
2) 모형이 얼마나 설명력을 갖는가?
3) 모형이 데이터를 잘 적합하고 있는가?
나. 회귀계수의 추정(최소제곱법, 최소자승법)
- 측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법
- 잔차제곱이 가장 작은 선을 구하는 것을 의미함
4절. 시계열 분석
1. 시계열 자료
가. 개요
- 시간의 흐름에 따라 관찰된 값들을 시계열 자료라고 함
- 시계열 데이터의 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악하여 활용
나. 시계열 자료의 종류
1) 비정상성 시계열 자료
- 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열 자료가 이에 해당함
2) 정상성 시계열 자료
- 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료
2. 정상성
가. 평균이 일정할 경우
- 모든 시점에 대해 일정한 평균을 가짐
- 평균이 일정하지 않은 시계열을 차분을 통해 정상화할 수 있음
나. 분산이 일정
- 분산도 시점에 의존하지 않고 일정해야 함
- 분산이 일정하지 않을 경우, 변환을 통해 정상화할 수 있음
다. 공분산도 단지 시차에만 의존, 실제 특정 시점 t, s에는 의존하지 않음
참고
차분이란?
- 현시점 자료에서 전 시점 자료를 빼는 것
- 일반차분: 바로 전 시점의 자료를 빼는 방법
- 계절차분: 여러 시점 전의 자료를 빼는 방법, 주로 계절성을 갖는 자료를 정상화하는 데 사용
라. 정상시계열의 모습
정상 시계열의 특징
- 정상 시계열은 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 가짐
- 정상 시계열은 항상 그 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭을 가짐
- 정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 없음
3. 시계열자료 분석방법
가. 분석방법
- 회귀분석, Box-Jenkins방법, 지수평활법, 시계열 분해법 등이 있음
나. 자료 형태에 따른 분석방법
1) 일변량 시계열 분석
- 시간을 설명변수로 한 회귀모형주가 소매물가지수 등 하나의 변수에 관심을 갖는 경우의 시계열분석
2) 다중 시계열분석
- 계량경제 모형, 전이함수 모형, 개입분석, 상태공간 분석, 다변량 ARIMA 등
- 여러 개의 시간에 따른 변수들을 활용하는 시계열 분석
다. 이동평균법
1) 이동평균법의 개념
- 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산하고, 이들의 추세를 파악하여 다음 기간을 예측하는 방법
- 시계열 자료에서 계절변동과 불규칙변동을 제거하여 추세변동과 순환변동만 가진 시계열로 변환하는 방법으로도 사용됨
2) 이동평균법의 특징
- 간단하고 쉽게 미래를 예측할 수 있으며, 자료의 수가 많고 안정된 패턴을 보이는 경우 예측의 품질이 높음
- 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여함
- 일반적으로 시계열 자료에 뚜렷한 추세가 있거나 불규칙변동이 심하지 않은 경우에는 짧은 기간의 평균을 사용함
- 반대로 불규칙변동이 심한 경우 긴 기간의 평균을 사용함
- 이동평균법에서 가장 중요한 것은 적절한 기간을 사용하는 것임(즉, 적절한 n의 개수를 결정하는 것)
라. 지수평활법
1) 지수평활법의 개념
- 일정기간의 평균을 이용하는 이동평균법과 달리 모든 시계열 자료를 사용하려 평균을 구함
- 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법
2) 지수평활법의 특징
- 단기간에 발생하는 불규칙 변동을 평활하는 방법
- 자료의 수가 많고, 안정된 패턴을 보이는 경우일수록 예측 품질이 높음
- 지수평활계수는 예측오차를 비교하여 예측오차가 가장 작은 값을 선택하는 것이 바람직함
- 지수평활계수는 과거로 갈수록 지속적으로 감소함
- 불규칙변동의 영향을 제거하는 효과가 있으며, 중기 예측 이상에 주로 사용됨
'2022 하계 모각코 캠프 (ADsP)' 카테고리의 다른 글
[모각코] 8/24 분류분석2, 군집분석 (0) | 2022.08.24 |
---|---|
[모각코] 8/20 정형 데이터 마이닝, 분류 분석 1 (0) | 2022.08.20 |
[모각코] 8/13 기초 통계분석 (0) | 2022.08.14 |
[모각코] 8/10 통계분석의 이해 (0) | 2022.08.11 |
[모각코] 8/6 3과목 3장 실전 문제 풀기 - 오답노트 (0) | 2022.08.07 |