Review
# 해당 포스팅은 KOCW 김충락 교수님의 수리통계학 강의와 Hogg의 수리통계학개론(Introduction to Mathematical Statistics)를 기초로 작성되었습니다.
안녕하십니까, 간토끼입니다.
이번 포스팅에서는 확률변수(Random Variable; R.V.)에 대해 다뤄보겠습니다.

지난 포스팅에서는 확률실험, 그리고 확률실험의 모든 결과의 집합인 표본공간, 그리고 표본공간의 각 원소에 측도(measure)의 개념으로 확률을 부여하는 확률집합함수에 대해 다뤘습니다.
간단하게 확률실험의 예시를 들어보죠.

앞, 뒷면이 존재하는 동전을 던지는 실험을 가정합시다.
이때 앞면을 H, 뒷면을 T라고 하면 표본공간은
그리고 앞면이 나오면 1을 부여하고, 뒷면이 나오면 0을 부여한다고 합시다.
이는 다시 생각해보면

즉 이때의 함수
이를 확률변수라고 합니다.

확률변수(Random Variable)는 표본공간에서의 각 원소
그리고 확률변수 X의 공간(space)을
이때
Interval of Real Numbers(실수의 구간)이라면 연속확률변수(Continuous R.V.)라고 합니다.
이건 다음 포스팅에서 자세히 다루겠습니다.
위에서 소개한 개념을 도식화하면 다음과 같습니다.

표본공간
그리고 sigma field가 정의됨에 따라 각각의 확률집합합수도 갖겠죠.
확률변수 X의 공간인 D에서 정의된 확률집합함수를 Induced Probability Function이라고 합니다.
이 확률함수는 확률변수가 이산형이냐, 연속형이냐에 따라 부르는 명칭이 상이합니다.
전자라면 확률질량함수(Probability Mass Function; PMF)라고 하고, 후자라면 확률밀도함수(Probability Density Function; PDF)라고 합니다.
이 개념도 이산확률변수와 연속확률변수를 다루면서 소개하겠습니다.
위에서 소개한 확률변수에 따른 확률함수(질량, 밀도)는 확률변수의 분포를 결정하는 함수입니다.
이번에 소개할 누적분포함수는 확률변수의 확률분포를 고유하게 결정하는 함수입니다.
1. 누적분포함수(Cumulative Distribution Function; CDF)

즉
예시를 살펴보죠.

확률변수
우리가 아는 주사위는 1부터 6까지의 눈으로 이루어진 정육면체이므로, 각 주사위의 눈이 나올 확률은 다음과 같겠죠.
그렇다면
위 그림에서 우측에 있는 그래프를 살펴보면 몇 가지 눈에 띄는 성질이 있습니다.
먼저
그리고 위 예시는 불연속점이 존재합니다. 비록 모든 구간에서 연속은 아니지만 불연속점에서 우극한(light-limit)과 함숫값이 같습니다.
또한
이러한 성질들을 정리하면 다음과 같습니다.

직관적으로 이해되는 성질들입니다. 어려울 건 없지만 4번째 성질은 헷갈릴 수 있습니다.
각 성질들을 하나씩 증명해보죠.

어렵지 않습니다. 직관적으로 이해되는 증명이라고 생각합니다.
1번째 성질은 CDF의 특성상 확률을 "누적"하여 더하기 때문에, 확률변수가 상대적으로 작은 값이라면 누적한 값도 같거나 작겠죠.
2번째 성질과 3번째 성질은 위에서 간단히 언급했고요.
조금 헷갈릴 수 있는 4번째 성질(d)만 따로 증명해보겠습니다.

2023.07.21 - [Statistics/Mathematical Statistics] - [수리통계학] 불의 부등식(Boole's Inequality)
[수리통계학] 불의 부등식(Boole's Inequality)
Review 참고 포스팅 : # 해당 포스팅은 KOCW 김충락 교수님의 수리통계학 강의와 Hogg의 수리통계학개론(Introduction to Mathematical Statistics)를 기초로 작성되었습니다. 안녕하십니까, 간토끼입니다. 이번
datalabbit.tistory.com
위 증명을 이해하기 위해 이전 포스팅에서 '확률의 연속 정리'를 읽고 오시는 것을 추천합니다.
그러면 집합
이때
여기서 확률의 연속 정리를 이용하면 limit와 확률 P를 바꿔도 성립하니까
그러면 다음과 같이 도출됨을 보일 수 있습니다.
직접 손으로 써보시는 것도 추천합니다.
즉 누적분포함수에서는 항상 함숫값과 우극한이 같습니다. 그러나 좌극한과 함숫값은 전 구간에서 항상 같지 않으므로 누적분포함수는 "항상 연속"인 함수는 아닙니다. (불연속점이 존재합니다.)
위 사실을 이용하면 다음과 같은 정리를 도출할 수 있습니다.

구간 (a, b] 의 확률값은 b까지의 누적분포함수에서 a까지의 누적분포함수를 뺀 값과 같습니다.
익숙한 notation이죠? 미적분의 기본정리입니다. 다음 포스팅에서 다루겠지만 확률밀도함수를 적분한 값은 누적분포함수가 됩니다.
그리고 P(X=x)는 누적분포함수의 함숫값에서 좌극한 값을 뺀 값이 됩니다. 다른 말로 하면 질량이 존재한다는 건데요.
만약 x가 누적분포함수의 불연속점이라면 확률값은 항상 0보다 큽니다. (
다음 포스팅에서는 앞서 언급한 이산확률변수와 연속확률변수에 대해 좀 더 다뤄보겠습니다.
감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)
* 본 블로그는 학부생이 운영하는 블로그입니다.
따라서 포스팅에 학문적 오류가 있을 수 있으며, 이를 감안해서 봐주시면 감사하겠습니다.
- 간토끼(DataLabbit)
- B.A. in Economics, Data Science at University of Seoul
'Statistics > Mathematical Statistics' 카테고리의 다른 글
[수리통계학] 확률변수의 변환(Transformation) (10) | 2023.10.07 |
---|---|
[수리통계학] 이산확률변수와 연속확률변수(Discrete and Continuous Random Variable) (2) | 2023.10.05 |
[수리통계학] 조건부 확률과 베이즈 정리(Conditional Probability and Bayes Theorem) (0) | 2023.07.22 |
[수리통계학] 불의 부등식(Boole's Inequality) (0) | 2023.07.21 |
[수리통계학] 확률의 성질과 포함-배제 원리(Inclusion-Exclusion Principle) (0) | 2023.07.19 |