[수리통계학] 이산확률변수와 연속확률변수(Discrete and Continuous Random Variable)
Review
참고 포스팅 :
2023.09.14 - [Statistics/Mathematical Statistics] - [수리통계학] 확률변수(Random Variable ; R.V.)
# 해당 포스팅은 KOCW 김충락 교수님의 수리통계학 강의와 Hogg의 수리통계학개론(Introduction to Mathematical Statistics)를 기초로 작성되었습니다.
안녕하십니까, 간토끼입니다.
지난 포스팅에서는 표본공간의 각 원소를 실수의 공간으로 옮겨 오직 하나의 실수로 대응시키는 실함수인 확률변수(Random Variable)에 대해 다뤘었습니다.
이번 포스팅에서는 확률변수의 형태에 따라 구분되는 이산확률변수와 연속확률변수에 대해 다뤄보겠습니다.
먼저 확률변수(Random Variable)의 개념에 대해 다시 짚고 넘어가보겠습니다.
확률변수는 표본공간 $C$에서의 각 원소 $c$에 오직 하나의 실수 $X(c) = x$를 대응시키는 함수(function)를 의미한다고 했었습니다.
즉, 동전 던지기라는 확률실험을 생각해보면, 이 실험을 통해 발생할 수 있는 결과값은 앞면 혹은 뒷면이었죠.
이때 표본공간 = {앞면, 뒷면} 이 될 것이고, 앞면을 1, 뒷면을 0으로 변환한다면 이때의 {1, 0} 은 확률변수에 의해 변환된 값들의 공간인 $D$가 됩니다.
이 $D_X$를 확률변수 $X$의 공간(Space)이라고 정의했었습니다.
만약 위 예시처럼 확률변수가 0, 1와 같이 셀 수 있는 형태거나 유한한 형태라면 이산확률변수(Discrete Random Variable)이라고 하고, 실수의 구간으로 표현된다면 연속확률변수(Continuous Random Variable)이라고 합니다.
이번 포스팅에서는 이 둘에 대해 다뤄보겠습니다.
1. 이산확률변수(Discrete Random Variable)
이산확률변수란 확률변수의 공간(space)이 유한하거나(finite), 셀 수 있는 경우(Countable)를 의미합니다.
위에서 든 예시인 동전의 앞,뒷면이나 주사위의 눈처럼 유한하거나 각 경우의 수를 셀 수 있는 것을 말하겠죠.
그리고 확률변수의 각각의 값에 대응되는 확률도 정의할 수 있겠죠.
이 확률을 나타내는 함수를 확률질량함수(Probability Mass Function, PMF)라고 합니다.
확률질량함수는 위와 같이 2가지의 성질을 가집니다.
첫 번째 성질은 확률의 크기는 0보다 크거나 같고, 1보다 작거나 같습니다. 즉 [0, 1]의 범위에서 정의된다는 것입니다.
두 번째 성질은 확률의 총합은 1이 된다는 것입니다.
위 두 성질은 앞의 포스팅을 읽고 오신 분들이라면 쉽게 이해하실 수 있을 거라고 생각합니다.
즉 첫 번째 성질에 의해 어떤 $x$는 확률이 0일 수도 있고, 0이 아닌 $x$일 수도 있습니다.
우리는 실제로 0인 $x$보다 0이 아닌 $x$에 관심을 갖곤 합니다.
사실 일상에서 확률이 0이라는 건 생각보다 큰 의미가 없을 수 있거든요.
걸어가다가 벼락을 맞을 확률도 0보다는 큽니다. 매우 작은, 0에 가까운 확률이긴 하지만요.
그래서 확률이 0이 아닌, 즉 0보다 큰 확률을 갖는 $x$들의 집합을 살펴볼 수 있다면 어떨까요?
이를 위해 Support라는 새로운 개념을 소개하고자 합니다.
Support란 확률질량함수(pmf)가 positive, 즉 0보다 큰 x만 모은 집합입니다.
확률값이 양수인 확률변수의 집합이라고 이해하시면 좋을 것 같습니다. 표기법은 $S_X$ 라고 합니다.
예를 들어 확률변수 X의 공간이 {0, 1, 2, 3}이고, 각 확률은 보시는 바와 같다고 합시다.
이때 Support of X : $S_X$는 확률이 0보다 큰 $X$의 집합이므로, 2를 제외한 {0, 1, 3}이 되겠죠.
이 표기법은 앞으로 다룰 개념들에게 유용하게 사용되니 알아두시면 좋습니다.
이해를 돕기 위해 이산확률변수의 예시를 하나 들어보죠.
확률변수 $X$를 동전 던지기를 할 때 첫 번째로 동전의 앞면(Head, H)이 나올 때까지 동전을 던진 횟수로 정의합시다.
이때 $X$의 확률질량함수는 다음과 같겠죠.
만약 첫 번째부터 앞면이 나왔다면, X = 1이 될 겁니다.
그리고 두 번째에 앞면이 나왔다면, X = 2가 되고 이때의 던진 동전의 경우의 수는 TH(뒷면 앞면)이 되겠죠.
세 번째에 앞면이 나왔다면 경우의 수는 TTH(뒷뒷앞)이 되고, X = 3입니다.
이렇게 반복해서 $X = k$라면 뒷면(T)는 k-1번 나오고 앞면(H)는 1번 나온 것과 같겠죠.
즉 확률질량함수는 동전의 각 면이 나올 확률(1/2)을 이용해서 표기할 수 있습니다.
$X=x$일 때, 뒷면이 연속으로 $x-1$번 나올 확률은 $(\frac{1}{2})^{x-1}$ 이고, 이어서 앞면이 1번 나올 확률은 $\frac{1}{2}$이니까,
둘을 곱하면 확률변수 X의 확률질량함수 $P_{X}(x) = (\frac{1}{2})^x$ 이 됩니다.
그리고 $X$의 support는 {1, 2, 3, ... }이 되겠죠. 만약 동전의 뒷면이 계속 안 나올 수도 있으니깐요.
이러한 의미에서 이산확률변수는 유한하거나(finite), 무한하더라도 셀 수 있는 경우(countable)를 의미합니다.
즉 위 확률변수 $X$는 무한하지만 셀 수 있으므로 이산확률변수라고 할 수 있습니다.
2. 연속확률변수(Continuous Random Variable)
연속확률변수란 확률변수의 누적분포함수(Cumulative Density Function, CDF)가 실수 공간의 모든 $x$에 대해 연속인 경우를 의미합니다.
즉 $X$의 공간(Space) $D_X$이 실수의 공간으로 정의된 경우를 의미합니다.
여기서 중요한 개념이 나옵니다. 만약 누적분포함수가 연속이라면 $x$의 확률밀도함수도 연속입니다.
이 개념을 이해하기 위해 지난 포스팅을 잠깐 리뷰해보겠습니다.
지난 포스팅에서 다루었던 개념 중 $x$에서의 확률 $P(x) > 0$이라면 $X = x$는 누적분포함수에서 불연속점이라는 개념이 있었습니다.
즉 x의 확률 $P(X=x)$는 $x$의 CDF 값에서 x의 좌극한 값 $x^-$을 빼줌으로써 정의했었죠.
하지만 누적분포함수 CDF가 연속이라면 어떻게 될까요?
$ x = x^* $에서 함수가 연속이라는 의미는 함수값 $f(x^*)$ 와 $x^*$에서의 극한값이 같다는 의미였었죠. 고등수학에서 다루었던 개념입니다.
즉 누적분포함수에서도 마찬가지로 $x = x^*$에서 연속이라면 함수값 $F(x^*)$와 좌극한값 $F(x^{*-})$이 같다는 것이겠죠.
그러므로 $x^*$에서의 확률값 $P(X = x^{*}) = 0$ 이 됩니다.
따라서 확률변수 $X$가 연속이라면 누적분포함수도 모든 구간에서 연속함수일 것이고, 구간 내 임의의 점 $x^*$에서의 확률값은 항상 0이 됩니다.
즉 $P(X = x^{*})$은 항상 0입니다.
이를 질량점이 없다고 표현하며, 연속확률변수에서 확률함수인 $P(X=x)$를 확률밀도함수(Probability Density Function)라고 부르는 이유입니다.
하지만 이산확률변수는 $P(X=x)$를 cdf의 불연속점에서 정의할 수 있으므로 질량점이 있죠!
그래서 확률함수를 확률질량함수(Probability Mass Function)라고 부릅니다.
확률밀도함수(Probability Density Function)는 $X$의 CDF를 미분한 값으로 정의합니다.
그리고 Support도 확률밀도함수가 0보다 큰 모든 $x$의 집합으로 정의할 수 있겠죠.
위에서 언급했던 것처럼 확률밀도함수는 질량점이 없으므로 확률은 밀도함수의 넓이, 즉 적분으로 구해야합니다.
만약 구간 $a$에서 $b$까지의 확률은 확률밀도함수의 a부터 b까지의 정적분 $\int_{a}^{b} f_{X}(x)$과 같습니다.
이는 CDF의 관점에서 보면 $F_{X}(b) - F_{X}(a)$와도 같습니다. 확률밀도함수의 적분은 누적분포함수이니깐요.
정적분의 개념을 아신다면 쉽게 이해하실 수 있을 거라 생각합니다.
만약 위 문제에서 a = b가 같다면 어떨까요?
즉 $P(a \leq x \leq a)$는 a부터 a까지 정적분한 값 $\int_{a}^{a} f_{X}(x)$ 과 같으며, 답은 0이 되겠죠.
적분의 개념에 의해서도 확률밀도함수는 질량점이 없음을 직관적으로 이해할 수 있습니다.
확률밀도함수도 마찬가지로 2가지의 성질이 있습니다.
첫 번째는 확률이므로 0보다 같거나 큰 구간에서 함수값이 정의되겠죠.
두 번째는 실수 전체의 구간(음의 무한대 ~ 양의 무한대)에서 적분한 값은 1이 됩니다. 확률의 총합이 1이다와 같은 진술이죠.
이는 양의 무한대에서의 누적분포함수 값이 1이다와 같은 진술입니다.
다음 포스팅에서는 확률변수 $X$가 있고 $X$의 분포를 알고 있을 때 $Y = g(X)$로 표현되는 확률변수 $Y$의 분포를 결정하는 변환(Transformation)에 대해 다뤄보겠습니다.
감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)
* 본 블로그는 학부생이 운영하는 블로그입니다.
따라서 포스팅에 학문적 오류가 있을 수 있으며, 이를 감안해서 봐주시면 감사하겠습니다.
- 간토끼(DataLabbit)
- B.A. in Economics, Data Science at University of Seoul