728x90

Review

참고 포스팅 :

2023.10.14 - [Statistics/Mathematical Statistics] - [수리통계학] 확률변수의 기댓값(Expectation of Random Variable)

 

[수리통계학] 확률변수의 기댓값(Expectation of Random Variable)

HTML 삽입 미리보기할 수 없는 소스 Review 참고 포스팅 : 2023.09.14 - [Statistics/Mathematical Statistics] - [수리통계학] 확률변수(Random Variable ; R.V.) [수리통계학] 확률변수(Random Variable ; R.V.) Review # 해당 포스

datalabbit.tistory.com

 

2023.09.14 - [Statistics/Mathematical Statistics] - [수리통계학] 확률변수(Random Variable ; R.V.)

 

[수리통계학] 확률변수(Random Variable ; R.V.)

HTML 삽입 미리보기할 수 없는 소스 Review # 해당 포스팅은 KOCW 김충락 교수님의 수리통계학 강의와 Hogg의 수리통계학개론(Introduction to Mathematical Statistics)를 기초로 작성되었습니다. 안녕하십니까,

datalabbit.tistory.com

# 해당 포스팅은 KOCW 김충락 교수님의 수리통계학 강의와 Hogg의 수리통계학개론(Introduction to Mathematical Statistics)를 기초로 작성되었습니다.

 


안녕하십니까, 간토끼입니다.

 

지난 포스팅까지는 확률변수가 1개 주어졌을 때의 확률분포, 즉 일변량 분포(Univariate Distribution) 하에서의 주제들을 다뤘었는데요.

 

이번 포스팅부터는 확률변수가 2개 이상일 때의 확률분포인 다변량 분포(Multivariate Distribution) 하에서의 주제들을 다뤄보겠습니다.

그중 오늘은 확률변수가 2개 주어졌을 때의 분포와 기댓값(Distribution and Expectation of Two Random Variables)에 대해 다뤄보겠습니다.

 

 


 

1. 확률벡터(Random Vector)와 분포

먼저 확률벡터에 대한 이야기를 해보겠습니다.

표본공간이 $C$ 인 확률실험이 주어졌을 때,

이 $C$ 의 각 원소 $c$ 에 단 하나의 순서쌍 $X_{1}(c) = x_{1}, \, X_{2}(c) = x_{2} $ 을 대응시키는 두 확률변수 $X_{1}, \, X_{2}$를 생각해봅시다.

그러면 이때 이 확률변수들을 벡터 표기로 나타내면 $X = (X_{1}, X_{2})$ 라고 할 수 있습니다.

 

이를 확률벡터(Random Vector)라고 합니다.

그리고 이 확률벡터의 공간(space)는 $D_{X} = \{ x_{1}, x_{2}) : X_{1}(c) = x_{1}, \, X_{2}(c) = x_{2}, c \in C \} $ 이 되겠죠.

 

따라서 확률변수 $X_{1}, X_{2}$ 는 공간 $C$ 에서 정의된 확률변수이고,

이때 확률변수의 공간 $D_{X}$는 2차원 유클리드 공간 $R^2$ 의 부분집합인 2차원 집합이 되겠죠.

 

그러므로 확률변수 $X_{1}, X_{2}$ 는 $C$ 로부터 $D$ 에 대한 벡터함수가 된다고 정리할 수 있습니다.

 

그리고 이 확률벡터는 다음과 같은 행벡터(row vector)의 표기로도 쓸 수 있습니다.

$$ X = \begin{pmatrix} X_1 \\ X_2 \end{pmatrix} = (X_{1}, X_{2})^{T} $$

 

 

 

자 그러면 다음을 생각해봅시다.

공간 $D$ 의 부분집합인 어떤 $A$ 가 있다고 하면, 일변수때와 마찬가지로 이 사건 $A$ 가 발생할 가능성, 즉 확률 $P(A)$ 에도 우리는 관심이 있을 겁니다. 그렇죠?

 

그렇다면 일변수가 아닌 이변수의 경우를 다루고 있으니, 이 사건 $A$ 의 확률은 다음과 같이 $P_{X_{1}, X_{2}} [A]$ 라고 할 수 있겠습니다.

하첨자에 변수 하나가 더 추가된 모습이죠.

 

사건의 확률을 알고 있다는 것은 분포를 알고 있다는 것과 동일하다고 했죠?

그러면 우리는 다음과 같이 누적분포함수(Cumulative Distribution Function; CDF)를 다음과 같이 유일하게 정의할 수 있습니다.

$$ F_{X_{1}, X_{2}} (X_{1}, X_{2}) = P [ \{ X_{1} \leq x_{1} \} \cap \{X_{2} \leq x_{2} \} ] = P( X_{1} \leq x_{1}, \, X_{2} \leq x_2 ] $$

 

이 cdf를 결합누적분포함수(Joint CDF)라고 합니다.

그리고 이 cdf를 알고 있다면 $(a_1, b_1] \times (a_2, b_2] $ 형태의 집합에 대해 모든 유도된 확률을 공식화하여 구할 수 있습니다.

만약 joint cdf를 알고 있다면 위 그림과 같이 특정 구간의 확률을 구할 수 있습니다.

직관적으로 이해가 되실 거라 생각하고 넘어가겠습니다.

 

일변수의 case와 마찬가지로 확률벡터에서도 확률변수가 이산형이냐, 연속형이냐에 따라 구분해서 확률함수를 정의할 수 있습니다.

 

만약 주어진 확률변수가 이산확률변수라면 확률벡터는 이산형 확률벡터(Discrete Random Variable)이라고 할 수 있겠죠.

그렇다면 결합확률질량함수, 즉 Joint PMF는 다음과 같습니다.

joint pmf 도 2가지의 성질을 만족해야 합니다.

$$ (i) \,\, 0 \leq P_{X_1, X_2} (x_1, x_2) \leq 1 $$

$$ (ii) \,\, \underset{D}{\sum \sum} P_{X_1, X_2} (x_1, x_2) = 1 $$

바로 각 확률은 0부터 1사이의 값을 가지며, 확률의 총합은 1이 되어야한다는 개념이죠.

 

이산형 확률벡터가 아니라 연속형 확률벡터(Continuous Random Variable)라도 크게 다를 건 없습니다.

이때 정의되는 joint pdf 또한 다음 2가지 성질을 만족해야 합니다.

$$ (i) \,\, f_{X_1, X_2} (x_1, x_2) \geq 0 $$

$$ (ii) \,\, \underset{D}{\iint} f_{X_1, X_2} (x_1, x_2) dx_{1} \, dx_{2} = 1 $$

 

그리고 이러한 joint pdf는 joint cdf에서 미분한 꼴이 되겠죠.

다만 joint cdf는 joint pdf가 각 변수에 대해서 적분한 꼴이므로, 미분할 때도 각 변수에 대해 미분해줘야 한다는 차이점이 있겠습니다.

$$ \frac{\partial^2 F_{X_1, X_2} (x_1, x_2)}{\partial x_1 \partial x_2} = f_{X_1, X_2} (x_1, x_2) $$

 

728x90

 

이번에는 Marginal Distribution, 즉 주변 분포에 대해서 다뤄보겠습니다.

기초통계학 카테고리에서 다룬 주제이므로 요점만 짚고 넘어가겠습니다.

2020.05.21 - [Statistics/Basic Statistics] - [기초통계학] 확률(Probability) 2 - 결합확률, 주변확률, 조건부확률

 

[기초통계학] 확률(Probability) 2 - 결합확률, 주변확률, 조건부확률

Review 참고 포스팅 : 2020/05/20 - [Statistics/Basic Statistics] - [기초통계학] 확률(Probability) 1 - 확률의 기본 개념 [기초통계학] 확률(Probability) 1 - 확률의 기본 개념 Review 참고 포스팅 : 2020/05/18 - [Statistics/Ba

datalabbit.tistory.com

 

만약 joint cdf가 주어져 있다면, 다음과 같이 특정 확률변수의 marginal distribution을 구할 수 있습니다.

예를 들어 $X_1$ 의 Marginal cdf는 다음과 같이 구할 수 있겠죠.

$$ F_{X_1} (x_1) = P[X_1 \leq x_1, \,\,  -\infty < X_2 \leq \infty] = \lim_{x_{2} \to \infty} F (x_1, x_2) $$

핵심은 $X_1$ 의 marginal cdf를 구하는 거라면 극한을 취해주는 건 $X_2$ 가 된다는 겁니다.

 

marginal pdf도 마찬가지입니다.

$$ f_{X_1} (x_1) = \int_{-\infty}^{\infty} f_{X_1, X_2} (x_1, x_2) \, dx_{2} $$

적분 식을 보면 $X_2$ 에 대한 적분임을 알 수 있습니다.

 

한번 간단한 문제를 통해 결합분포에서의 연산 과정을 이해해봅시다.

joint pdf가 $ x_1 + x_2 $ 로 주어져있고, 확률변수 $X_1, X_2$의 support는 $(0,1)$ 로 동일하게 주어져있는 경우를 가정합시다.

이때 $P(X_1 \leq \frac{1}{2})$와  $P(X_1 + X_2 \leq 1)$ 를 계산해보면 어떻게 될까요?

 

우선 (1)번 문제는 $X_1$ 의 support가 $(0, \frac{1}{2} ]$ 으로 주어져있음을 고려하여 적분 구간을 산정해야 합니다. 

그러면 위와 같이 계산하여 구할 수 있습니다.

 

그리고 (2)번 문제는 $X_1 + X_2 \leq 1$ 라는 조건이 있음을 고려하여 적분 구간을 산정해야 합니다.

이중적분 문제는 어떤 변수를 기준으로 잡고 전개하냐에 따라 적분 구간이 달라지는데요.

 

$X_1$ 변수를 먼저 적분한다고 하면, 이때 $X_1 + X_2 \leq 1$ 식에서 이항하면 $X_1 \leq 1-X_2$ 이라고 할 수 있겠죠.

그리고 $X_1$ 의 support는 $(0, 1)$ 이었으니 0보다는 커야하니, 위 부등식을 이용하면 $0 < X_1 \leq 1-X_2 $라고 적분 구간을 산정할 수 있겠네요.

 

그러면 계산 과정은 다음과 같습니다.

 

 


 

2. 확률벡터의 기댓값과 적률생성함수 (Expectation and MGF of Random Vector)

 

기댓값의 개념을 일변량에서 다변량으로 확장해봅시다.

확률벡터 $(X_1, X_2)$ 가 존재하고, 어떤 실함수 $g$ 에 대하여 $g \,:\, R^2 \rightarrow R$ 를 만족하며 $ Y = g(X_1, X_2)$ 을 만족하는 확률변수 $Y$ 를 정의해봅시다.

 

$Y$ 는 확률변수이니 분포를 구함으로써 기댓값을 결정할 수 있겠죠?

다음과 같이 기댓값을 정의할 수 있습니다.

절대수렴의 조건을 만족할 경우 기댓값은 존재한다고 할 수 있습니다.

 

그리고 기댓값의 선형성 또한 확률벡터의 case에서도 만족합니다.

$(X_1, X_2)$ 를 확률벡터라고 하면, $Y_1 = g_{1}(X_1, X_2), Y_2 = g_{2}(X_1, X_2)$ 또한 확률변수라고 할 수 있겠죠.

이 확률변수들은 기댓값이 존재하는 확률변수라고 가정하면 임의의 실수 $k_1, k_2$ 에 대해 선형성을 위와 같이 보일 수 있습니다.

 

이를 통해 기댓값 연산자 $E$ 가 선형 연산자임을 다시 한번 이해하실 수 있을 거라 생각합니다.

 

이번에는 확률벡터의 적률생성함수(Moment Generating Function; MGF)에 대해 얘기해보겠습니다.

$X = (X_1, X_2)^{T}$ 가 확률벡터라고 합시다.

그러면 상수 $h_1, h_2$ 가 양수일 때 $| t_{1} | < h_{1}, \,\, |t_{2}| < h_{2}$ 에 대해서 $E(e^{t_{1}X_{1} + t_{2}X_{2}})$ 가 존재하면,

이를 $M_{X_{1}, X_{2}}(t_{1}, t_{2})$ 라고 하고 확률벡터 $X$ 의 적률생성함수라고 합니다.

 

일변량의 경우와 마찬가지로 확률벡터의 mgf가 존재하면 그것은 확률벡터의 분포를 유일하게 결정합니다.

다만 모든 확률변수에 항상 mgf가 존재하는 것은 아니라는 것은 지난 포스팅에서 강조했었습니다.

 

그리고 이 mgf는 확률벡터의 mgf이죠. 결합적률생성함수라고 봐도 무방해보입니다.

그렇다면 이를 통해 단일 확률변수의 mgf도 구할 수 있지 않을까요?

 

정답은 '구할 수 있다' 입니다.

적률생성함수에서의 변수 $t_1$, $t_2$ 는 각 확률변수에 대응하는 변수잖아요?

만약 $X_1$ 에 대한 mgf를 구하고 싶다면, $X_2$ 에 대응되는 변수인 $t_2$ 를 0으로 만들어주면 되겠죠.

직관적으로 이해되실 거라 생각합니다.

전개 과정에서 $x_2$ 에 대한 확률밀도함수의 적분은 $x_1$ 의 marginal pdf가 되겠죠.

위에서 언급했던 개념을 활용했습니다.

 

그러므로 $t_2 = 0$ 일 때의 mgf는 $X_1$ 의 marginal mgf가 되고,

만약 $t_1 = 0$ 일 때의 mgf를 구하면 이는 $X_2$ 의 marginal mgf가 되겠죠!

 

 

그러면 이런 생각을 해볼 수 있을 것 같습니다.

만약 확률벡터의 mgf를 구할 수만 있다면, 이를 활용해서 단일 확률변수의 기댓값, 분산 등을 손쉽게 구할 수 있지 않을까요?

결국 mgf를 구한 후 몇번 미분하냐에 따라 적률의 차수가 달라지니깐요.

 

한번 구해보겠습니다.

 

 

확률벡터 $(X_1, X_2)$ 의 joint pdf가 $ f_{X_{1}, X_{2}}(x_1, x_2) = 8x_{1}x_{2}$ 와 같이 주어져있고,

support는 {S_{X} = \{  0 < x_{1} < x_{2} < 1 \} $ 가 된다고 가정합시다.

 

그러면 먼저 mgf부터 구해보도록 하죠.

음 ... mgf가 굉장히 어렵네요.

주어진 pdf와 support 자체가 단순해서 적분이 쉬울 거라 생각했는데 매우 복잡해보입니다.

심지어 손으로 못 풀겠어서 ChatGPT의 울프람알파 플러그인을 빌렸습니다.

 

이러다 배보다 배꼽이 커질 것 같으니,

$X_2$ 의 기댓값을 직접 구해보도록 하죠.

오히려 $X_2$ 의 기댓값을 직접 구하는 게 더 쉽습니다.

여기서 $X_2$ 의 pdf를 구하기 위해 $\int_{0}^{x_2} [x_{1} \,\, 8x_{1} x_{2}] \,\, dx_{1}$ 을 계산해주면 되겠죠.

계산하면 답은 $\frac{4}{5}$ 임을 알 수 있습니다.

 

경우에 따라서는 mgf가 복잡한 형태일 가능성이 높으니, 상황에 따라서 유연하게 계산하는 것이 유리하다는 말씀을 드리고 싶었습니다.

 

다음 포스팅에서는 이 확률벡터의 변환(Transformation)에 대해 다뤄보겠습니다.

 

감사합니다.

잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)

(구독이면 더욱 좋습니다 ^_^)

 

* 본 블로그는 학부생이 운영하는 블로그입니다.

따라서 포스팅에 학문적 오류가 있을 수 있으며, 이를 감안해서 봐주시면 감사하겠습니다.

 


- 간토끼(DataLabbit)

- B.A. in Economics, Data Science at University of Seoul

728x90

+ Recent posts