728x90

Review

참고 포스팅 :

2020/05/18 - [Statistics/Basic Statistics] - [기초통계학] 확률변수와 기댓값, 분산

 

[기초통계학] 확률변수와 기댓값, 분산

Review 참고 포스팅 : 2020/05/15 - [Statistics/Basic Statistics] - [기초통계학] 기술통계학(Descriptive Statistics)기초 2 - 모집단과 표본집단 with 모수&통계량 [기초통계학] 기술통계학(Descriptive Stati..

datalabbit.tistory.com


안녕하십니까, 간토끼입니다.

 

지난 포스팅에서 확률을 주로 다뤘지만, 확률을 다루기 전에 확률변수에 대해 다루면서 평균과 분산, 혹은 기댓값과 분산에 대해서 다뤘었습니다.

평균과 분산은 기술통계량으로서 자료의 중심이 어떻게 되는지, 그리고 자료가 중심을 바탕으로 얼마나 퍼져있는지를 알려주는 역할을 한다고 했었죠.

 

이번 포스팅에서는 평균만을 이용하여 자료의 분포에 대해서 추정하는 중요하고도 강력한 공식인 마르코프 부등식에 대해서 다뤄보겠습니다.

1. 마르코프 부등식(Markov Inequality)

마르코프 부등식이란 평균 정보만을 이용하여 자료가 특정 구간에 위치할 확률을 추정할 수 있는 공식입니다.

 

사실 아직 다루지는 않았지만, 자료의 평균과 분산이 주어졌을 때 자료가 특정 구간에 위치할 확률은 자료의 확률분포에 따라 달라집니다.

우리가 일반적으로 사용하는 정규분포를 예로 들면, 확률변수 X가 정규분포를 따른다고 가정할 때

X가 임의의 수 K보다 작을 확률, 즉 Pr(X < K) 는 평균이 0이고 분산이 1인 표준정규분포를 따르는 표준화변수 Z로 바꿔주는 표준화 공식에 의해 변환되고, 표준정규분포표에 의해 위 구간의 확률을 구할 수 있게 되는 것이죠.

 

그러나 마르코프 부등식은 확률분포가 알려지지 않았음에도 기댓값에 대한 정보만 갖고도  확률분포에 대한 정보를 추론할 수 있게 만들어줍니다.

 

한번 마르코프 부등식을 확률변수에 따라 증명해보겠습니다.

X가 이산확률변수일 때 마르코프 부등식이 항상 성립하는 것을 다음과 같이 보일 수 있습니다.

 

 

 

물론 X가 연속확률변수일 때도 다음과 같이 부등식이 항상 성립하는 것을 보일 수 있습니다.

 

공식만 봐서는 적용이 어려울 수 있으니, 한번 예제를 살펴보죠.


2. 마르코프 부등식을 이용한 예제

어느 창업을 준비하는 사업가가 창업을 준비하던 도중,

창업까지 걸리는 시간이 평균적으로 80일 정도 걸린다는 사실을 발견했다고 가정합시다.

 

이때 확률변수창업까지 걸리는 시간 X이고, 이때 X의 기댓값 E(X) = 80 이라고 할 수 있겠네요.

 

그렇다면 (1) 창업에 걸리는 시간이 60일보다 클 확률 P(X ≥60) 을 구하고,

(2) 창업에 걸리는 시간이 100일보다 클 확률 P(X ≥100) 을 각각 구해봅시다.

 

이때 마르코프 부등식의 핵심은 확률분포에 대한 정보가 전혀 없이도 확률을 추정할 수 있다는 것입니다!

물론 위 문제를 풀기 위해서는 X가 항상 음이 아니어야 한다는 가정이 필요합니다.

위 예시에서는 확률변수 X가 창업에 걸리는 '시간'이므로, 음수가 될 수 없겠죠?

 

그럼 풀이 보여드리겠습니다.

먼저 (1)의 경우, P(X ≥60)  1.33 이지만, 확률은 항상 1보다 작거나 같으므로 자명한 결과이죠?

다르게 말하면 창업까지 걸리는 시간은 무조건 60일보다 크거나 같다는 것입니다.

 

그럼 좀 더 유의미한 정보를 얻기 위해 (2)를 한번 봅시다.

P(X ≥100)  0.8 이 나왔네요. 창업까지 걸리는 시간이 100일 이상일 확률이 80% 이하군요.

이를 바탕으로 대충 P(60≤X≤100)은 0.2 정도 되겠군요! 의미있는 정보는 아니지만요.

 

이처럼 마르코프 부등식은 확률분포에 대한 가정 없이 기댓값만 갖고도 확률 추정을 할 수 있게 해주는 강력한 도구입니다.

그러나 아쉬운 점은 등식이 아닌 부등식이므로 대략적인 확률 추정만 가능하다는 것이죠.

즉 자료가 어느 범위에 있을지의 확률에 대해 개괄적인 정보만을 제공해준다는 한계가 있습니다.

 

그러나 다음 포스팅에서 다룰 체비셰프 부등식은 평균과 분산을 모두 이용하는 부등식이기에,

마르코프 부등식에서 다룬 근사적인 확룰보다 정확하게 확률을 추정할 수 있습니다.

 

다음 포스팅에서는 마르코프 부등식을 응용한 체비셰프 부등식에 대해서 다뤄보겠습니다.

 

 

감사합니다.

잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)

(구독이면 더욱 좋습니다 ^_^)

 

 

 


- 간토끼(DataLabbit)

- University of Seoul

- Economics, Big Data Analytics

728x90

+ Recent posts