728x90

Review

참고 포스팅 :

2020/05/26 - [Statistics/Basic Statistics] - [기초통계학] 마르코프 부등식(Markov Inequality)

 

[기초통계학] 마르코프 부등식(Markov Inequality)

Review 참고 포스팅 : 2020/05/18 - [Statistics/Basic Statistics] - [기초통계학] 확률변수와 기댓값, 분산 [기초통계학] 확률변수와 기댓값, 분산 Review 참고 포스팅 : 2020/05/15 - [Statistics/Basic Statis..

datalabbit.tistory.com


안녕하십니까, 간토끼입니다.

 

저번에는 확률분포의 가정 없이도 확률변수의 기댓값만으로 대략적인 확률을 추정할 수 있었던 마르코프 부등식에 대해서 소개를 했었습니다.

 

이번 포스팅에서는 마르코프 부등식보다 정확한 추정을 할 수 있는 체비셰프 부등식에 대해서 다뤄보겠습니다.

 

마르코프 부등식은 평균을 이용하여 자료가 특정 값 이상일 확률을 근사적으로 계산하였습니다.

 

이번에 다룰 체비셰프 부등식은 마르코프 부등식과 달리 평균과 분산의 정보를 함께 이용하여 보다 정확하게 확률을 추정할 수 있도록 도와준다는 점에서 좋은 방법론이라고 할 수 있습니다.

물론 마르코프 부등식과 동일하게 확률분포에 대한 가정을 하지 않아, 확률분포가 주어지지 않은 상황에서 확률을 쉽게 추정할 수 있습니다.

 

간단하게 마르코프 부등식을 이용하여 체비셰프 부등식을 유도해보겠습니다.

참고로 체비셰프라고도 하며, 체비쇼프, 체비쉐프 등 다양한 이름으로 불리고 있으니 참고하시기 바랍니다.

 

 

확률변수 X의 모평균을 μ, 모분산을 σ^2 이라고 합시다. 이때 마르코프 부등식에 의하여 쳬비셰프 부등식을 위와 같이 유도할 수 있습니다.

단, 실제로는 모평균과 모분산을 알기 어려운 경우가 많으므로, 부등식을 활용할 땐 표본평균과 표본분산을 사용해도 무방합니다.

 

쳬비셰프 부등식은 나름대로 강력한 공식이긴 하지만, 부등식을 활용해 대략적인 정보만을 알려준다는 점에서 상황에 따라선 크리티컬한 정보가 되지 못할 수도 있습니다.

 

만약 σ^2 >= k^2 라면 좌변의 값이 항상 1보다 작거나 같게 되므로, 확률이 1보다 작거나 같다는 것은 굉장히 자명한 진술입니다.

 

이때 부등식을 약간 변형시켜 X의 편차(X - μ)를  σ의 k배 형태로 나타주면 더욱 유용하게 활용할 수 있습니다.

간단하게 유도해봤습니다.

사실 파란색으로 밑줄 친 부등식보다 보라색으로 밑줄 친 부등식이 더욱 유용하게 쓰일 수 있습니다.

 

바로 k값에 따라 평균에서 k σ만큼 떨어진 구간에 자료가 위치할 확률을 구할 수 있다는 거죠.

 

물론 표준정규분포에서는 평균으로부터  2σ만큼 떨어진 구간의 확률이 약 0.95라는 점에서,

2 σ만큼 떨어진 구간의 확률이 0.75보다 크다는 체비셰프 부등식의 진술은 다소 괴리가 있을 수 있습니다.

 

이 부분은 단점이라고 할 수 있으나, 그럼에도 불구하고 실제로 정규분포가 아닌 분포도 많다는 것을 감안하면 유용하게 쓰일 수 있겠죠?

 

그리고 단점 중 하나는, 체비셰프 부등식은 분포가 평균을 중심으로 대칭이라고 가정하고 확률을 구합니다.

그러나 분포가 대칭이라는 가정은 어쩌면 다소 강력한 가정일 수 있다는 거죠. 꽤나 제약적으로 보입니다.

 

이를 위해 가정이 성립하지 않을 경우를 대비하여 양측이 아닌 단측 체비셰프 부등식을 다음과 같이 사용할 수 있습니다.

단측 체비셰프 부등식(One-sided Chevishev Inequality)는 다른 말로 칸텔리 부등식이라고도 부릅니다.

증명 과정은 생략하겠습니다.

 

 

지금까지 확률, 확률변수에 대해 다루면서 확률분포에 대한 가정없이 확률을 추정하는 방법에 대해서 살펴보았습니다.

다음 포스팅부터는 확률분포에 대해 다뤄볼 예정입니다만, 이 포스팅이 기초통계학임을 감안하면 세부적인 분포보다는 대중적인 분포 위주로 다루지 않을까 싶습니다.

 

자세한 건 수리통계학을 하면서 다뤄보기로 하고... 우선은 이산확률분포의 대표꼴인 베르누이분포와 이항분포에 대해서 다뤄보고, 연속확률분포의 대표꼴인 정규분포에 대해 다뤄보도록 하겠습니다.

 

시간이 남으면.. 그외 분포에 대해서도 살펴보고 싶은데, 사실 기초통계학은 후딱 건너뛰고 심화된 내용을 다루고픈 욕심이 있네요.

 

 

감사합니다. 

잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)

(구독이면 더욱 좋습니다 ^_^)

 

 

 


- 간토끼(DataLabbit)

- University of Seoul

- Economics, Big Data Analytics

728x90

+ Recent posts