728x90

안녕하십니까, 간토끼입니다.
 
이번 포스팅부터는 계량경제학의 내용 중 시계열자료를 이용한 회귀분석(Time Series Regression)에 대해서 다뤄보도록 하겠습니다.


 
1. 시계열 자료(Time Series Data)
먼저 시계열 자료의 개념에 대해서 다뤄보죠.

시계열 자료(Time Series Data)는 시간에 따라 관측된 자료를 의미합니다.
시계열 자료는 "시간"이 기준인 만큼, 시간의 흐름을 파악하는 것이 굉장히 중요합니다.
즉 과거의 데이터가 미래의 데이터에 영향을 주는 경우도 다반사죠.
그러나 미래의 데이터가 과거의 데이터에 영향을 주진 못합니다. 당연하죠?
 
일반적으로 시계열 자료를 확률과정(Stochastic Process)라고도 합니다.
다른 말로는 Time Series Process라고도 합니다.
 
자세한 설명은 다음 포스팅을 참고해주세요.

2020/11/03 - [Statistics/Time Series Analysis] - [시계열분석] 시계열모형의 개념

 

[시계열분석] 시계열모형의 개념

안녕하십니까, 간토끼입니다. 이번 포스팅은 시계열분석의 첫 포스팅인 시계열모형의 개념에 대해서 소개해보겠습니다. 우리가 일반적으로 시계열자료(Time Series)라고 부르는 것들은 주변에서

datalabbit.tistory.com

 


 
2. 시계열 자료와 횡단면 자료의 차이점
우리가 계량경제학, 혹은 회귀분석을 하면서 수도 없이 만났던 자료는 대부분 횡단면 자료(Cross section data)입니다.

시간의 흐름을 따졌을 때, 어떤 특정한 시점에 주목하여 그 시점에서 자료를 관측하는데요.
그러므로 횡단면 자료에서의 시간은 자료 내 모든 개체가 동일한 시간대를 공유합니다.
예를 들어 2020년-2학기 00고등학교 3학년 아이들의 중간고사 점수 데이터라고 하면,

ID 국어 수학 영어
1 78 82 88
2 93 92 91
...      
N 100 98 100

이러한 형태를 취하겠죠.
그리고 각 ID는 개체(Instance), 즉 학생들을 의미하고, 시점은 2020년 2학기로 고정되어 있습니다.
 
그렇다면 시계열 자료는 어떨까요?

위에서 언급한대로 시계열 자료는 시간이 데이터의 기준입니다.
그러므로 시계열 자료에서의 개체는 시간(Time)이 됩니다.
예를 들어 2000년부터 기록된 00고등학교 3학년 아이들의 "평균" 중간고사 점수 데이터라고 하면,

Time 국어 수학 영어
2000년 1학기 78 82 88
2000년 2학기 93 92 91
...      
2020년 2학기 100 98 100

이러한 형태를 취하겠죠.
 
이때 임의의 t 시점에 관측된 자료가 한 개체가 됩니다.
 
그러면 특정 시점에 관측된 Cross section data가 시간별로 있으면 어떻게 될까요?
즉 횡단면 자료와 시계열 자료의 성격이 결합된 형태이며,
예를 들어 2000년 1학기의 3학년 학생들의 중간고사 점수, 2000년 2학기의 학생들의 중간고사 점수 ... 로 이루어진 데이터를 떠올려보죠.
이럴 경우 만약 매시점마다 데이터 내 학생들이 달라진다면 Independently Pooled Cross Section이라고 부르고,
매시점마다 동일한 학생들을 추적한다면 Panel Data라고 부릅니다.
 
자세한 건 추후 Panel Data에 대한 내용을 다룰 때 소개하겠습니다.
 
아무튼 이러한 자료의 특성을 시계열 자료라고 부릅니다.
 

728x90

 
3. 시계열 자료를 이용한 OLS 회귀분석
그렇다면 이러한 시계열 자료를 이용하여 우리가 일반적으로 하던 OLS 회귀분석을 할 수 있을까요?
정답은 Yes일 수도 있고, No일 수도 있습니다.
한번 살펴보도록 하죠.
 

위와 같이 일반적인 회귀분석의 모형을 취하지만, 시계열 자료를 이용할 경우  index는 i가 아닌 t가 됩니다.
그리고 동시대적인 t시점에서의 자료 간의 관계를 분석하는 모형을 Static Model이라고 합니다.
그냥 Cross section에서의 회귀분석과 동일하나, index가 t인 것만 달라진다고 보시면 됩니다.
 
만약 X_t와 Y_t가 Stochastic Process일 때, 이러한 Stochastic Process가 Stationary하다면, OLS 회귀분석을 해도 문제가 없습니다.
Data가 Stationary하다는 조건을 만족해야 하는데요.
자세한 건 추후 시계열분석 카테고리에서 다룰 예정이라 언급만 하겠습니다.
쉽게 설명하면 Stationary하다는 것은 시계열 데이터의 움직임이 어떠한 패턴(추세, 계절성 등)을 보이지 않고 무작위적인 움직임을 보이는 것 정도로 이해하셔도 무방합니다.
실제로는 Strict Stationary, Covariance Stationary 등 따져봐야할 조건이 좀 있어서 추후 자세히 다루겠습니다.
 
아무튼 Non-Stationary한 데이터를 이용해서 회귀분석을 하게 되면 문제가 발생합니다.
한번 다음 예시를 살펴보시죠.
 

시계열 자료가 "대한민국의 1인당 GDP"자료와, "감비아의 신발 생산량" 자료가 있다고 가정합시다.
그리고 1960년대부터 현재까지 관측된 자료이고요.
보시다시피 두 자료 모두 시간의 흐름에 따라 지속적으로 증가하는 추세(Trend)를 보이고 있습니다.
이때 위 두 자료를 이용하여 OLS 회귀분석을 하면 어떠한 문제가 생길까요?
 
바로 두 자료 모두 추세(Trend)로 인해 둘다 증가하고 있어, 상관계수가 매우 높게 나올 겁니다.
이때 OLS회귀분석에서 기울기 Parameter β은 상관계수로 나타낼 수 있다는 사실 또한 알고 계실 거고요.
 
즉 만약 반응변수가 1인당 GDP, 설명변수가 감비아의 신발 생산량으로 놓고 OLS회귀분석을 한다면,
기울기 Parameter β는 매우 significant한 양(+)의 값을 가질 것입니다.
이를 해석하면 "감비아의 신발 생산량이 증가할수록 대한민국의 1인당 GDP는 증가한다"라는 말도 안 되는 결론을 이끌어 낼 수 있습니다.
이러한 결론이 나타나는 이유는 실제로 두 변수 간 아무 관련이 없음에도 불구하고 그저 시간이 지남에 따라 증가하는 Trend로 인해서이며, 그렇기에 이 Trend를 둘다 제거해줘야 그나마 객관적인 결론을 이끌어낼 수 있습니다.
이를 Spurious Regression 이라고 하며, 우리말로 번역하면 가성회귀(?), 허구적 회귀(?)라고 합니다.
허구적 회귀라는 말에서 알 수 있듯이, 소위 "개뻥"이라는 거죠.
 
이러한 Spurious Regression Problem을 방지하기 위해 Stationary한 데이터를 이용해줘야 하며,
Stationarity를 만족하기 위해 Trend, Seasonality, Autocorrelation 등 패턴을 제거해줘야 합니다.
 

대충 빨간색이 Non-Stationary한 데이터이고, 파란색이 Stationary한 데이터입니다.
차이가 눈에 보이시죠?
 
앞으로 이번 포스팅부터 시계열 자료를 이용하는 방법부터 회귀분석을 하는 방법까지 차근차근 다뤄보겠습니다.
 
감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)
 
 
 
 


- 간토끼(DataLabbit)
- University of Seoul
- Economics, Data Science

728x90

+ Recent posts