728x90

Review
참고 포스팅 :
2020/09/07 - [Statistics/Basic Statistics] - [기초통계학] 순열과 조합(Permutation and Combination)
2020/05/18 - [Statistics/Basic Statistics] - [기초통계학] 확률변수와 기댓값, 분산


안녕하십니까, 간토끼입니다.

이번 포스팅에서는 이산확률변수가 따르는 확률분포인 이산확률분포 중,
대표적인 분포인 베르누이분포(Bernoulli Distribution)이항분포(Binomial Distribution)에 대해서 다뤄보겠습니다.


1. 베르누이 분포(Bernoulli Distribution)
두 가지의 가능한 결과만을 갖는 시행(trial)을 생각해봅시다.

즉 동전 던지기, 행운권 뽑기 등과 같이 우리가 얻을 수 있는 결과는 성공, 혹은 실패만 있다는 것입니다.

이때 이 시행의 결과가 성공이면 1의 값을 갖고, 실패이면 0의 값을 갖는 확률변수 X를 베르누이(Bernoulli) 확률변수라고 하고, 그 분포를 베르누이 분포라고 합니다.
그리고 이렇게 두 가지의 결과만을 갖는 시행을 베르누이 시행이라고 합니다.


만약 베르누이 시행에서 '성공(행운권 추첨이라면 '당첨'이 되겠죠.)'일 확률이 p인 베르누이 확률변수 X의 확률질량함수는 다음과 같습니다.

f(x) = p^x (1-p)^(1-x) , 이때 x가 가질 수 있는 값은 0(실패), 혹은 1(성공)이 되겠죠.따라서 성공일 확률은 p, 실패일 확률은 1-p = q가 되겠습니다.

이를 이용해 베르누이 확률변수 X의 기댓값 = p, 분산 = p(1-p)가 됩니다.



2. 이항분포(Binomial Distribution)
베르누이 분포를 좀 더 확장해보죠.

만약 베르누이 시행을 여러 번 하면 어떻게 될까요?
예를 들어 동전 던지기도, 한번만 하고 끝내는 것이 아니라 5번을 던져서 그중 성공(앞면이라고 가정하죠)이 3번 나올 확률을 계산해볼 수도 있지 않을까요?

이때 사용하는 확률분포를 이항분포라고 합니다.

오타 : nCx • p^x • (1-p)^(1-x) 입니다.

성공 확률이 p인 베르누이 시행을 n번 반복하여 그에 따른 베르누이 확률변수 n개를 얻었다고 가정합시다.
만약 5번 중 1번째, 4번째, 5번째 앞면이 나온 동전 던지기를 떠올리면, 결과값은 {1, 0, 0, 1, 1}이 되겠죠.

이러한 n개의 베르누이 확률변수의 합으로 나타내어지는 변수를 X라고 정의하면, 이때 X는 이항확률변수라고 합니다.
즉, X는 n회의 독립적인 베르누이 시행에서 구한 '성공'의 횟수를 나타내게 되므로 {0, 1, 2, ..., n} 중 하나의 값을 가집니다.

그리고 이 이항확률변수의 확률질량함수는 베르누이 확률질량함수에서 nCx만 추가된 형태입니다.

조합(Combination)은 어떻게 나왔을까요?

n번의 시행 중 성공한 횟수가 x라고 가정하면, 실패한 횟수는 n-x번이겠죠.
따라서 이에 상응하는 경우의 수는 n번의 시행 중 성공인 시행 x번을 뽑는 것과 같으므로 nCx입니다.

예를 들어보면, 3번 중 1번 성공할 경우의 수는 {1, 0, 0}, {0, 1, 0}, {0, 0, 1} 이므로 3C1인 3번이 됩니다.
이해가 되시죠? '조합'이기 때문에 위 Set 안에서의 순서는 의미가 없습니다.
어차피 3번 중 1번만 성공하면 되니깐요.

그래서 X가 시행횟수가 n번이고 성공 확률이 p인 이항분포를 따른다고 하면,
이때 이항확률변수 X의 기댓값은 np이고, 분산은 npq가 됩니다.

유도 과정은 위를 참고하면 되고,
Xi가 베르누이 확률변수기 때문에, 베르누이 변수의 기댓값과 분산임을 기억하여 대입해주면 위와 같이 나옵니다.
어렵진 않을 거라고 생각합니다.

어떻게 보면 베르누이분포는 이항분포에서 n=1인 특이한 케이스라고도 볼 수 있을 것 같습니다.


아무튼 한번 위 개념을 이용해서 간단한 이항분포 문제를 풀어보죠.


Ex. 프로농구에서 어떤 농구선수의 3점슛 성공률이 35%라고 가정하자. 이때 이 선수가 5번을 던질 때 3점슛이 3번 성공할 확률을 계산하고, 기댓값과 분산을 구하라.


간단하죠?
뭐 고등학생 문제 수준이라... 어려울 건 없어보입니다.
이렇게 응용하시면 됩니다.

다음 포스팅에서는 이산확률분포의 다른 형태인 포아송분포, 기하분포 등에 대해서 다뤄보겠습니다.


감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)



- 간토끼(DataLabbit)

- University of Seoul

- Economics, Big Data Analytics

728x90

+ Recent posts