[회귀분석] OLS추정량의 특성
Review
참고 포스팅 :
안녕하십니까, 간토끼입니다.
이전 포스팅까지 단순회귀분석의 개념을 다루면서, 최소제곱법을 이용한 최소제곱추정량(LSE)를 유도한 후 이를 통해 OLS회귀분석이 무엇인지 개념을 다루어보았습니다.
이번 포스팅에서는 이렇게 구한 OLS추정량의 특성을 다뤄보도록 하겠습니다.
우리가 지난 포스팅에서 구해본 OLS추정량은 다음과 같습니다.
첫 번째 특성은 The sum of the OLS residuals is zero(잔차의 총합은 0이다) 입니다.
이 특성은 직관적으로 이해가 되실 겁니다만, 정규방정식을 이용해 유도해보도록 하죠.
정규방정식을 통해 위 식이 유도되는데, 이때 참값에서 예측값을 빼면 잔차가 나오죠?
그러한 의미에서 위 식은 잔차의 총합은 0이다와 같은 의미가 됩니다.
참고로 잔차와 오차의 차이를 말씀드리면,
오차는 모집단에서의 참값 - 예측값을 말하고, 잔차는 모집단으로부터 추출된 Sample으로부터 도출된 참값 - 예측값을 말합니다.
즉 같은 의미긴 하지만, 쉽게 말해서 모집단에서 도출된 편차인지, 표본에서 도출된 편차인지에 따라 용어가 다르다고 보시면 됩니다.
다만 두 번째 특성인 the sample covariance between the regressors and the OLS residuals is zero(설명변수와 잔차 간의 공분산은 0이다)라는 것은 다소 어려우실 수도 있는데요.
공분산의 공식을 풀어보면 위와 같습니다.
이때 E(Xi)E(e_hat)(: 설명변수의 기댓값*잔차의 기댓값)은 잔차의 기댓값이 0이므로,
자연스럽게 (설명변수*잔차)의 기댓값만 남은 식으로 바꿀 수 있음은 이해가 되실 겁니다.
이 기댓값은 (설명변수*잔차)의 총합으로 바꿔줄 수 있는데요.
굳이 따지면 기댓값이니까 1/n을 곱해줘야 하는데 어차피 이 상수 1/n 곱은 의미가 없습니다.
왜냐하면 위 식의 값이 0이 될 것이기 때문에 나중에 소거할 수 있기 때문이죠.그래서 생략했습니다.
아무튼 각설하고 왜 0이 되는지 살펴보기 위해 우리가 앞서 최소제곱법을 이용할 때의 정규방정식을 끌어와보죠.
잔차제곱합을 β1에 대하여 편미분한 값이 우측 식과 같으며, 이 식은 1계조건에 의해 0이 되어야 했죠.
이때 식의 오른쪽 부분은 다시 쓰면 참값(y) - 예측값(y_hat)과 같으며, 이는 잔차와 동일한 정의를 갖습니다.
그러므로 설명변수와 잔차의 공분산은 (설명변수*잔차)의 총합과 같으며 이는 0이 됩니다.
즉, 설명변수와 잔차는 서로 무관하다라는 의미와 같습니다.
엄밀한 의미에서 독립은 아니지만, 약한 독립성 가정 정도로 이해하시면 됩니다.
그리고 OLS 회귀직선은 항상 (X의 평균, Y의 평균)를 지납니다.
이는 β0의 추정량을 구하는 공식에서 유도할 수 있는데요.
β0의 추정량의 식을 Y의 평균에 대해 다시 쓰면 두 번째 식과 같으며,
이는 추정된 회귀식에 (X평균, Y평균)을 대입한 것과 같습니다.
따라서 OLS 회귀직선은 항상 (x_bar, y_bar)를 지납니다.
다음 포스팅에서는 이 OLS추정량의 특성을 이용해 ANOVA와 회귀분석을 연결해보도록 하겠습니다.
감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)
- 간토끼(DataLabbit)
- University of Seoul
- Economics, Big Data Analytics