[회귀분석] ANOVA(분산분석)를 이용한 회귀분석 접근 (1) - 제곱합(Sum of Squares)
Review
참고 포스팅 :
2020/09/17 - [Statistics/Regression Analysis] - [회귀분석] 단순선형회귀분석(Simple Linear Regression) 개념
2020/09/22 - [Statistics/Regression Analysis] - [회귀분석] OLS추정량의 특성
안녕하십니까, 간토끼입니다.
이번 포스팅에서는 분산분석(Analysis of Variance : ANOVA)를 이용해 회귀분석에 접근해보는 방법을 다뤄보도록 하겠습니다.
먼저 OLS회귀분석의 핵심은 오차(잔차)를 최소화하는 회귀 직선(Regression Line)을 찾아내어, 이를 이용해 반응변수 y를 최대한 잘 예측하고자 하는 것이었죠.
물론 오차를 완벽하게 0으로 할 수 있는 회귀 직선을 찾을 수 없다는 것을 우리는 알고 있습니다.
그러한 의미에서 반응변수 y는 다음과 같이 설명 가능한 부분과 설명 불가능한 부분으로 나누어 쓸 수 있을 것입니다.
설명 가능한 부분은 추정된 회귀식이겠죠.
β0, β1의 추정량을 이용해 설명변수 x를 대입하면 예측된 y값이 나올 것입니다.
그리고 설명 불가능한 부분은 오차(잔차)항이겠죠.
이를 좌표축에 도식화하면 위와 같이 y값을 두 부분으로 나누어 그릴 수 있을 것입니다.
여기서 분산분석(ANOVA)의 개념을 이용해 회귀모형의 적합도를 평가해보도록 하겠습니다.
모형 적합도의 핵심은 '추정된 회귀식이 반응변수 Y를 얼마나 잘 설명하는가'를 파악하는 것입니다.
이를 위해 먼저 우리는 '편차'의 개념을 이용하여 반응변수 Y의 편차를 위와 같이 나타낼 수 있습니다.
이 편차의 제곱합은 분산의 정의를 빌려 “Y가 Y의 평균을 중심으로 얼마나 퍼져있는지”를 나타낸다고도 이해할 수 있겠습니다.
우리는 이를 반응변수 Y의 변동, 즉 총변동(Total Variation)이라고 정의하겠습니다.
총변동의 의미는 설명변수 x를 고려하지 않았을 때 실제 관측치 y값들이 평균을 중심으로 퍼져있는 정도를 말합니다.
다른 용어로는 총제곱합, 즉 SST(Total Sum of Squares)라는 용어로 정의할 수 있습니다.
이는 위에서 언급한 바와 같이 설명 가능한 부분과 설명 불가능한 부분으로 나누어 쓸 수 있습니다.
반응변수 y는 설명 가능한 부분(추정된 회귀식)과 설명 불가능한 부분(오차항)으로 나누어 쓸 수 있으며,
반응변수 y의 편차는 설명 가능한 부분에 y의 평균을 빼준 꼴로 위와 같이 다시 쓸 수 있겠네요.
여기서 설명 가능한 부분(y의 추정치)에 y의 평균을 빼준 꼴, 즉 이 편차는 회귀직선에 의해 설명되는 변동이라고 할 수 있으며,
오차항은 회귀직선으로는 설명되지 않는 변동이라고 할 수 있습니다.
이를 제곱합의 형태로 위와 같이 나타낼 수 있습니다.
즉, 반응변수 y의 총변동은 회귀모형에 의해 설명되는 변동의 제곱합과 오차에 의해 설명되는 제곱합의 합으로 이루어짐을 쉽게 알 수 있으며,
회귀모형에 의해 설명되는 변동의 제곱합은 회귀제곱합(SSR, Resgression Sum of Squares),
오차에 의해 설명되는 변동의 제곱합은 오차제곱합(SSE, Error(Residual) Sum of Squares)라고 합니다.
따라서 SST = SSR + SSE라고 할 수 있습니다.
이때 위 식에서 우항은 왜 0이 될까요?
0이 되는 과정을 이해하기 위해 앞 포스팅에서 살펴봤던 OLS추정량의 특성을 이용합시다.
못 보신 분들은 다음 링크를 참고해주세요.
( 2020/09/22 - [Statistics/Regression Analysis] - [회귀분석] OLS추정량의 특성)
따라서 앞에서 좌표축에 도식화한 그래프는 다음과 같이 다시 나타낼 수 있습니다.
SST를 SSR과 SSE로 나누어 그릴 수 있으며, 여기서 알 수 있는 핵심은
SST에서 SSR이 얼마나 차지하느냐가 중요하다는 것이겠죠.
그 이유는 간단합니다.
오차제곱합을 최소화할수록 Y를 잘 예측할 수 있는데 오차제곱합이 작아진다는 얘기는 SSE가 작아진다는 말과 같으니까 SST에서 SSE가 작아지면 SSR이 커지게 되겠죠.
정리하면, SSR이 커진다는 것은 SSE가 작아진다는 것이고, SSE가 작아지면 설명 불가능한 변동이 작아지는 거니까,
우리가 추정한 모형을 바탕으로 반응변수 Y를 보다 잘 예측할 수 있게 된다는 것입니다.
이렇게 반응변수 Y의 변동을 분해하였다면, 분해한 각 항의 자유도(Degree of Freedom)을 구해야 합니다.
자유도의 정의는 변인(변수)의 수에서 제약조건을 뺀 값이 됩니다.
다른 말로는 추정해야 할 미지수의 개수를 내가 가진 정보의 수에서 뺀 값이라고도 합니다.
이러한 개념을 이용해 분해한 각 항의 자유도를 한번 구해보시죠.
먼저 SST의 자유도는 위와 같이 n-1 입니다.
우리가 가진 정보의 수인 n개에서, y의 편차의 합이 0이 되어야 한다는 제약조건 1개를 뺀 값이라고 볼 수 있는데요.
다시 말하자면 y의 편차의 합은 항상 0이 되어야 하기 때문에 우리가 가진 n개에서 n-1개는 자유롭게 이용할 수 있지만, 나머지 1개는 y의 평균에 의해 항상 고정됩니다.
예를 들면, y의 평균이 3이라고 하고, 우리가 가진 데이터는 3개가 있다고 가정합시다.
그렇다면 1번째, 2번째 데이터의 값은 막말로 자유롭게 설정해도 됩니다. (Ex. 50000000, 1929392 ... 등)
그러나 1번째, 2번째 데이터의 값이 정해지면, 3번째 데이터의 값은 y의 평균이 3이라는 제약때문에 이에 맞추어 특정 값으로 고정되게 되죠.
뭐 이러한 의미에서 자유도를 이해하시면 될 것 같습니다.
두 번째로 SSR의 자유도는 1입니다.
단순회귀모형의 추정된 회귀식에서 자유롭게 결정할 수 있는 정보는 Parameter 2개(β0, β1)입니다.
여기서 앞서 다루었던 OLS추정량의 성질에 의해, 추정된 회귀직선은 항상 평균점을 지나며,
평균점에서 각각의 parameter(기울기 or 절편)가 변하면 나머지 parameter도 그에 맞게 변하게 됩니다.
즉 자유롭게 변경할 수 있는 parameter가 1개밖에 없다는 점에서 SSR의 자유도는 1이며,
사실 단순회귀분석이 아니라 다중회귀분석으로 확장할 경우, SSR의 자유도는 설명변수의 개수인 k개가 됩니다.
(단순회귀분석에서는 설명변수의 개수가 1개이므로 SSR의 자유도가 1인 셈이지요.)
마지막으로 SSE의 자유도는 n-2개입니다.
우리가 가진 n개의 정보 중, 추정된 회귀식에서 쓰이는 2개의 정보(parameter 개수)가 고정되어있으므로,
이 2개를 제외한 n-2개가 SSE의 자유도가 됩니다.
따라서 SST의 자유도인 n-1은 SSR의 자유도인 1과 SSE의 자유도인 n-2의 합으로 이루어져 있다고 할 수 있습니다.
d.f.(SST) = d.f.(SSR) + d.f.(SSE)
그리고 SSR과 SSE를 각각 그들의 자유도로 나눈 것을 MSR, MSE라고 부릅니다.
# (MS : Mean Squares)
쓰다 보니 포스팅이 다소 길어지네요.
F-통계량으로의 유도 과정이나 여러 포인트를 다룰 필요가 있을 것 같아서 두 편으로 나누어 쓰려고 합니다.
나머지 내용은 다음 포스팅에서 다뤄보겠습니다.
감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)
- 간토끼(DataLabbit)
- University of Seoul
- Economics, Big Data Analytics