본문 바로가기

2022 하계 모각코 캠프 (ADsP)

[모각코] 8/17 3절 회귀분석, 4절 시계열 분석

3절. 회귀분석

1. 회귀분석의 개요

가. 회귀분석의 정의

- 하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법

- 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위한 분석방법

- 독립변수의 개수가 하나이면 단순선형회귀분석, 독립변수의 개수가 두 개 이상이면 다중선형 회귀분석으로 분석할 수 있음

나. 회귀분석의 변수

- 영향을 받는 변수 y: 반응변수, 종속변수, 결과변수

- 영향을 주는 변수 x: 설명변수, 독립변수, 예측변수

다. 선형회귀분석의 가정

1) 선형성

- 입력변수와 출력변수의 관계가 선형

 

2) 등분산성

- 오차의 분산이 입력변수와 무관하게 일정

- 잔차플롯(점산도)를 활용하여 잔차와 입력변수간에 아무런 관련성이 없게 무작위적으로 고루 분포되어야 등분산성 가정을 만족하게 됨

 

3) 독립성

- 입력변수와 오차는 관련이 없음

- 자기상관을 알아보기 위해 Durbin-Waston 통계량을 사용하며 주로 시계열 데이터에서 많이 활용

 

4) 비상관성

- 오차들끼리 상관이 없음

 

5) 정상성(정규성)

- 오차의 분포가 정규분포를 따름

라. 그래프를 활용한 선형회귀분석의 가정 검토

1) 선형성

: 선형회귀모형에서는 설명변수와 반응변수가 선형적 관계에 있음이 전제되어야 함

 

2) 등분산성

가) 등분산성을 만족하는 경우

: 설명변수에 대한 잔차의 산점도를 그렸을 때, 설명변수 값에 관계없이 잔차들의 변동성(분산)이 일정한 형태를 보이면 선형회귀분석의 가정 중 등분산성을 만족한다고 볼 수 있음

 

나) 등분산성을 만족하지 못하는 경우

: 설명변수가 커질수록 잔차의 분산이 줄어드는 이분산의 형태

: 2차항 설명변수가 필요

: 새로운 설명변수가 필요

 

3) 정규성

: Q-Q Plot을 출력했을 때, 잔차가 대각방향의 직선의 형태를 지니고 있으면 잔차는 정규분포를 따른다고 할 수 있음

마. 가정에 대한 검증

1) 단순선형회귀분석

: 입력변수와 출력변수간의 선형성을 점검하기 위해 산점도를 확인함

2) 다중선형회귀분석

: 선형회귀분석의 가정인 선형성, 등분산성, 독립성, 정상성이 모두 만족하는 지 확인해야 함

2. 단순선형회귀분석

: 하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법

가. 회귀분석에서의 검토사항

1) 회귀계수들이 유의미한가?

2) 모형이 얼마나 설명력을 갖는가?

3) 모형이 데이터를 잘 적합하고 있는가?

나. 회귀계수의 추정(최소제곱법, 최소자승법)

- 측정값을 기초로 하여 적당한 제곱합을 만들고 그것을 최소로 하는 값을 구하여 측정결과를 처리하는 방법

- 잔차제곱이 가장 작은 선을 구하는 것을 의미함


4절. 시계열 분석

1. 시계열 자료

가. 개요

- 시간의 흐름에 따라 관찰된 값들을 시계열 자료라고 함

- 시계열 데이터의 분석을 통해 미래의 값을 예측하고 경향, 주기, 계절성 등을 파악하여 활용

나. 시계열 자료의 종류

1) 비정상성 시계열 자료

- 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열 자료가 이에 해당함

 

2) 정상성 시계열 자료

- 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료

2. 정상성

가. 평균이 일정할 경우

- 모든 시점에 대해 일정한 평균을 가짐

- 평균이 일정하지 않은 시계열을 차분을 통해 정상화할 수 있음

나. 분산이 일정

- 분산도 시점에 의존하지 않고 일정해야 함

- 분산이 일정하지 않을 경우, 변환을 통해 정상화할 수 있음

다. 공분산도 단지 시차에만 의존, 실제 특정 시점 t, s에는 의존하지 않음

참고

차분이란?

- 현시점 자료에서 전 시점 자료를 빼는 것

- 일반차분: 바로 전 시점의 자료를 빼는 방법

- 계절차분: 여러 시점 전의 자료를 빼는 방법, 주로 계절성을 갖는 자료를 정상화하는 데 사용

라. 정상시계열의 모습

정상 시계열의 특징

- 정상 시계열은 어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기공분산을 측정하더라도 동일한 값을 가짐

- 정상 시계열은 항상 그 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭을 가짐

- 정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 없음

3. 시계열자료 분석방법

가. 분석방법

- 회귀분석, Box-Jenkins방법, 지수평활법, 시계열 분해법 등이 있음

나. 자료 형태에 따른 분석방법

1) 일변량 시계열 분석

- 시간을 설명변수로 한 회귀모형주가 소매물가지수 등 하나의 변수에 관심을 갖는 경우의 시계열분석

 

2) 다중 시계열분석

- 계량경제 모형, 전이함수 모형, 개입분석, 상태공간 분석, 다변량 ARIMA 등

- 여러 개의 시간에 따른 변수들을 활용하는 시계열 분석

다. 이동평균법

1) 이동평균법의 개념

- 과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산하고, 이들의 추세를 파악하여 다음 기간을 예측하는 방법

- 시계열 자료에서 계절변동과 불규칙변동을 제거하여 추세변동과 순환변동만 가진 시계열로 변환하는 방법으로도 사용됨

 

2) 이동평균법의 특징

- 간단하고 쉽게 미래를 예측할 수 있으며, 자료의 수가 많고 안정된 패턴을 보이는 경우 예측의 품질이 높음

- 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여함

- 일반적으로 시계열 자료에 뚜렷한 추세가 있거나 불규칙변동이 심하지 않은 경우에는 짧은 기간의 평균을 사용함

- 반대로 불규칙변동이 심한 경우 긴 기간의 평균을 사용함

- 이동평균법에서 가장 중요한 것은 적절한 기간을 사용하는 것임(즉, 적절한 n의 개수를 결정하는 것)

라. 지수평활법

1) 지수평활법의 개념

- 일정기간의 평균을 이용하는 이동평균법과 달리 모든 시계열 자료를 사용하려 평균을 구함

- 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미래를 예측하는 방법

 

2) 지수평활법의 특징

- 단기간에 발생하는 불규칙 변동을 평활하는 방법

- 자료의 수가 많고, 안정된 패턴을 보이는 경우일수록 예측 품질이 높음

- 지수평활계수는 예측오차를 비교하여 예측오차가 가장 작은 값을 선택하는 것이 바람직함

- 지수평활계수는 과거로 갈수록 지속적으로 감소함

- 불규칙변동의 영향을 제거하는 효과가 있으며, 중기 예측 이상에 주로 사용됨