[회귀분석] 최소제곱추정량 β1를 선형 추정량으로 유도하기
Review
참고 포스팅 :
안녕하십니까, 간토끼입니다.
이전 포스팅에서 최소제곱법(Least Square Method)을 이용해 최소제곱추정량(LSE)을 유도해보았습니다.
이 최소제곱추정량은 다른 말로 OLS추정량이라고도 부를 수 있다고 했죠.
이번 포스팅에서는 이 최소제곱추정량 중 단순회귀모형의 기울기를 나타내는 추정량 β1을 선형 추정량(Linear Estimator)로 나타내보겠습니다.
이전 포스팅에서 구해보았듯이 단순회귀모형의 최소제곱추정량 β1은 다음과 같이 나타낼 수 있었습니다.
하지만 이 공식은 계산하기에는 용이하지만, 추정량의 이론적 특성을 검토하는 데엔 그렇게 적합하지 않습니다.
이번 포스팅에서는 위 추정량의 이론적 특성을 검토하기 용이하도록 추정량의 공식을 재작성하겠습니다.
그 전에 먼저 위를 참고하고 가겠습니다.
단순한 식인데요. 편차의 합은 0이 된다는 자명한(?) 내용을 담고 있습니다.
앞으로 추정량을 다시 유도할 때 심심치 않게 나오니 혹시 모르셨다면 참고하시기 바랍니다.
자 그래서 최소제곱추정량 β1을 다시 한번 정리해보겠습니다.
먼저 식의 분자 부분을 전개하면 위 참고에서 다루었듯이, 우항은 x편차의 합이기 때문에 0이 됩니다.
이후 yi의 가중치인 wi를 사용하여, β1을 yi의 가중평균꼴로 나타낼 수 있습니다.
이렇게 어떠한 확률변수의 가중평균의 꼴로 나타내는 추정량을 선형 추정량(Linear Estimator)라고 합니다.
여기서 핵심은 일종의 가중치 wi가 확률변수가 아니라는 점입니다.
왜냐하면 wi를 이루고 있는 설명변수 x는 우리가 "비확률변수"라고 정의하였습니다. (엄밀히 따지면 상수는 아니지만 상수라고 생각합시다.)
즉 주어져 있는 것으로 받아들인다고 했죠.
그렇기에 w항은 확률적이지 않은 설명변수 x에 의존하므로, 역시 확률적이지 않다고 할 수 있는 것이죠.
그러므로 yi에 대한 일종의 가중치 역할로써 사용됩니다.
우리는 이렇게 가중치(계수)와 (확률)변수의 곱의 합으로 나타낼 수 있는 것을 "선형"이라고 합니다.
(아래와 같은 식을 선형결합(Linear Combination)이라고 합니다.)
β1 = w1y1 + w2y2 + w3y3 + ... + wnyn
그래서 이렇게 가중치의 역할을 하는 wi는 다음과 같은 성질을 갖습니다.
1번째, 가중치 w의 합은 0이 됩니다.
위 참고에서 다루었던 편차의 합이 0이 된다는 것을 이용해 0이 됨을 쉽게 보일 수 있습니다.
그리고 2번째 성질을 보이기 전에 2번째 참고를 보시고 넘어가겠습니다.
설명변수 X의 편차 제곱의 합은 위와 같이 편차에 X를 곱한 꼴의 합으로 나타낼 수 있습니다.
이 참고를 이용해 다음 성질을 보여보도록 하죠.
2번째 성질은 가중치 w와 x를 곱한 꼴의 합은 1이 됩니다.2번째 참고를 이용하면 마찬가지로 쉽게 보일 수 있습니다.
자 그래서 가중치 w의 2가지 성질을 이용해 최소제곱추정량 β1을 위와 같이 나타낼 수 있습니다.
최소제곱추정량은 모수의 참값인 β1에 가중치 w와 오차(Error) e를 곱한 꼴을 더한 것으로 나타낼 수 있습니다.
이때 오차 ei는 우리가 알 수 없는 True Model : Y = β0 + β1* xi + ei 로부터 얻어지는 오차항입니다.
그러므로 위 선형 추정량 식은 우리가 관찰할 수 없는 모수의 참값인 β1과 모집단의 오차(Error)항 e에 의존한다는 점에서 사실 계산이 어렵습니다.
다만 최소제곱추정량이 모수의 참값에 오차항에 가중치를 곱하여 더해진 꼴로 나타난다는 점에서,
추정량의 특성을 이해하는 데 도움이 될 것입니다.
다음 포스팅에서는 이 선형 추정량(Linear Estimator)을 이용해 최소제곱추정량 β1의 기댓값과 분산을 구해보겠습니다.
감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)
- 간토끼(DataLabbit)
- University of Seoul
- Economics, Big Data Analytics