728x90

안녕하십니까, 간토끼입니다.
 
이번 포스팅에서는 조금 생소한 개념일 수 있으나 사회과학에서 주로 쓰이는 Proxy Variable에 대해서 다뤄보겠습니다.


 
Proxy Variable은 대리 변수? 대용 변수 라는 이름으로 번역되는데요.
더 직관적이지 못한 것 같아 이번 포스팅에서는 그냥 Proxy라고 칭하겠습니다.
 
Proxy를 설명하기 위해 하나의 예를 들어보죠.

다음 가설에서 독립변수는 능력(Ability)라고 할 수 있으며, 종속변수는 임금(Wage)라고 할 수 있겠죠.
사회과학에서는 이러한 가설을 세운 후 실제로 두 변수 간 관련성(상관관계 or 인과관계)이 있는지 실증분석을 해봐야 합니다.
 
다만 사회과학에서 조사방법론과 관련한 수업을 들으신 분들은 이후의 단계인 '개념의 조작적 정의'를 잘 아실 겁니다.
이렇게 가설에서 변수를 뽑아내고 나면, 측정 가능하도록 변수를 조작화해줘야 한다는 것이죠.
 
종속변수인 임금(Wage)은 직관적으로도 측정 가능한 지표를 여럿 떠올리실 겁니다. (시급, 월급, 연봉 등)
그러나 독립변수인 능력(Ability)은 다소 추상적인 개념이기는 합니다.
 

 
뭐 능력이라고 하면 싸움(?) 능력도 있겠고, 학업 능력도 있겠고, 일 능력도 있겠죠.
물론 맥락상 일에 관한 능력이겠지만 어떤 선택지를 해도 조금 찝찝하기는 합니다.
 
 
만약 능력이란 변수를 제대로 정의하지 못해 그냥 모형에서 제거했다고 가정합시다.
여기서 모형은 반응변수(y)를 임금으로 하는 임금방정식을 가정하겠습니다.
 

 
즉 측정 불가능하다고 판단해 Omitted Variable로 처리를 한 것이죠.
그렇게 한다면 True Model에서의 Ability항은 기존 Error Term u에 더하여 새로운 Error Term인 v로 정의할 수 있습니다.
 

이때 제거한 Ability 변수가 모형 내 설명변수인 교육수준, 경력 등과 상관성이 크다면 어떻게 될까요?
그렇다면 오차항의 조건부 기댓값이 0이 되지 않아 내생성 문제(Endogenous Problem)가 발생합니다.
Endogenous Problem이 발생하면 모형의 OLS추정량이 불편성과 일치성을 갖지 않겠죠.
 
따라서 이러한 문제를 막기 위해 관측 불가능한 Omitted Variable 대신 관련성이 높은 대리 변수인 Proxy Variable을 추가해야 합니다.
 
이러한 측면에서 Proxy는 중요한 변수임에도 모형에 포함되지 않아 문제가 발생할 때, 기존 변수인 Omitted Variable을 대체할 수 있는 변수를 의미합니다.
In statistics, a proxy or proxy variable is a variable that is not in itself directly relevant, but that serves in place of an unobservable or immeasurable variable.
 
예를 들의 삶의 질(Quality of Life)을 측정한다고 하면, 통상적으로 1인당 GDP로 환산하여 측정하는 것과 같은 맥락이죠.
따라서 위 문제에서 Ability 또한 IQ 등으로 Proxy의 예시를 떠올릴 수 있을 것입니다.
이러한 맥락에서 Proxy는 개념의 조작적 정의에서 쓰이는 개념입니다.
 
 
각설하고 위 문제로 돌아가 Proxy Variable을 모형에 추가해보죠.

설명변수가 3개 있는 linear regression 모형에서 3번째 설명변수 X3*가 Omitted Variable이라고 가정하면,
X3*를 X3*의 Proxy인 X3를 이용해 다음과 같이 정의합니다.
 

X3* = δ0 + δ3*X3 + v

 
이때 δ3 은 Proxy와 Omitted Variable 간의 관련성을 설명해주겠죠. (기울기계수는 상관계수로부터 정의되니깐요.)
그리고 δ0 Proxy와 Omitted Variable간의 Scale 차이를 보정해주는 역할을 합니다.
 
 
따라서 Omitted Variable을 효과적으로 대체할 수 있는 좋은 Proxy를 쓴다면 불편성과 일치성을 만족하는 추정량을 구할 수 있습니다.

이때 Proxy를 모형에 대체하여 넣는 방법을 Plug-in Solution이라고 합니다.
 
다만 Omitted Variable과 Proxy는 관련성이 높을 뿐이지 완전히 같지는 않습니다.
(IQ와 Ability가 똑같은 개념이 아닌 것처럼요.)
 
따라서 이를 위해 오차항 u, v에 대한 가정이 필요합니다.
 


가정 1. Error u is uncorrelated with x1, x2, x3*, and x3

당연한 가정이지만 회귀모형의 Error Term은 설명변수 x들과 관련성이 없어야겠죠.
크게 설명할 부분은 아닌 것 같습니다.
 
 
가정 2. The Error v is uncorrelated with x1, x2 and x3

Omitted variable를 Proxy를 이용해 나타낸 식에서의 Error Term v는 모형의 다른 설명변수들과 무관해야 합니다.
이 진술은 Proxy가 Omitted Variable X3*의 좋은 Proxy라는 것과 같은 말이겠죠.
좋지 않은 Proxy를 세우면 다른 설명변수들과 상관성이 클테니깐요.
 
 
따라서 Proxy가 위 두 가정을 만족하면 Plug-in Solution시 모형의 추정량은 불편성과 일치성을 만족합니다.

위 설명을 읽어보시면 이해가 쉬우실 겁니다.
 
반대로 이런 상황은 어떨까요?
예를 들어 Omitted Variable이 모든 설명변수와 관련이 있는 경우죠.(그래도 위 두 가정은 만족한다고 가정합니다.) 
(직관적으로 봐도 Ability도 교육수준과 경력 간 관계가 있을 것 같습니다.)
 

Plug-in Solution을 하게 되면 모든 추정량에서 Bias가 생깁니다.
그래도 오차항에 대한 가정은 만족하므로 추정량이 일치성은 만족합니다.
 
따라서 편향성을 감수하더라도 일치성은 챙길 수 있으니 Omitted Variable을 모형에서 제거하여 무시하는 것보다,
좋지 않은 Proxy라도 쓰는 게 낫다는 것이 결론입니다.
 
물론 가장 좋은 건 "좋은 Proxy"를 쓰는 건데... 사회과학에서는 쉽지 않겠죠?
 
다음 포스팅에서는 Proxy의 예시 중 하나인 Lagged Variable에 대해서 다뤄보겠습니다.
 
 
감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)
 
 
 
 


- 간토끼(DataLabbit)
- University of Seoul
- Economics, Data Science

728x90

+ Recent posts