728x90

Review

참고 포스팅 : 2020/05/15 - [Statistics/Basic Statistics] - [기초통계학] 기술통계학(Descriptive Statistics)기초 2 - 모집단과 표본집단 with 모수&통계량

 

[기초통계학] 기술통계학(Descriptive Statistics)기초 2 - 모집단과 표본집단 with 모수&통계량

Review 참고 포스팅 : 2020/05/14 - [Statistics/Basic Statistics] - [기초통계학] 기술통계학(Descriptive Statistics)기초 1 - 평균, 분산, 표준편차 등 [기초통계학] 기술통계학(Descriptive Statistics)기초..

datalabbit.tistory.com


안녕하십니까, 간토끼입니다.

 

지난 포스팅에서 평균, 분산, 표준편차를 모집단 or 표본집단에 따라 다루어봤는데요.

 

오늘은 이와 비슷한 개념인 기댓값, 분산에 대해서 다뤄보겠습니다.

 

먼저 이를 정의하기 위해 확률변수에 대해서 정의하겠습니다.

우리가 변수는 일반적으로 많이 사용하는데요.

쉽게 말해서 변수는 단순히 변하는 수죠? 상수는 특정한 고정된 값을 의미하고요.

 

확률변수는 주로 통계학에서 사용하는 변수입니다.

우리가 저번에 다루었던 표본을 이용해서 정의하자면, 

확률변수란 한 시행에서 표본 공간을 정의역으로 하는 실수 함수를 의미합니다.

 

예를 들어볼게요. 가장 익숙하고 쉬운 주사위를 가정합시다.

 

괴상한 주사위가 아닌, 정육면체의 모양을 하고, 각 면마다 수를 나타내는 표시(눈)가 있는 일반적인 주사위를 가정할게요.

그리고 주사위를 던져보면 1부터 6사이의 눈이 나오게 됩니다.

이때 표본공간(S)는 확률 실험에서 나타날 수 있는 모든 경우의 수를 의미합니다.

즉, S = {1, 2, 3, 4, 5, 6}이라고 할 수 있습니다.

 

그리고 주사위가 조작된 게 아닌 공정한 주사위라면, 랜덤한 확률(Probability)에 의해 어떠한 숫자가 나올 거예요.

이때 확률의 총합은 1이 항상 돼야 하며, 확률에 의해 나온 숫자를 우리는 확률변수 X라고 하면,

확률변수 X와 그에 대응되는 확률 P의 관계를 다음과 같이 테이블의 형태로 그려볼 수 있을 거예요.

확률변수 X 1 2 3 4 5 6
확률 P 1/6 1/6 1/6 1/6 1/6 1/6 1

 

확률의 총합은 1이라고 했으므로, 각각의 확률변수 x에 대응되는 확률은  확률의 총합(1)에서 X의 개수대로 나눠주면 쉽게 구할 수 있을 것입니다.

물론 확률도 경험적 확률과 수학적 확률이 있는데... 궁금하신 분은 링크 참고해보시기 바랍니다.

https://terms.naver.com/entry.nhn?docId=2073801&cid=47324&categoryId=47324

 

수학적, 통계적, 기하학적 확률

[ 1. 교과서 속 주개념] [ 1) 수학적 확률] 어떤 시행에서 얻어지는 근원사건이 모두 같은 정도로 일어날 것이라고 기대될 때, 표본공간S에 속하는 근원사건의 수를 n(S), 사건A에 속하는 근원사건의

terms.naver.com

 

확률변수는 크게 2가지로 나눌 수 있어요. 하나는 이산확률변수이고, 다른 하나는 연속확률변수입니다.

이산확률변수는 위 주사위의 눈처럼 직접 셀 수 있는 확률변수를 말합니다. 1, 2, 3, 4 ... 처럼 정수형태겠죠?

연속확률변수는 직접 셀 수 없는 실수 형태의 확률변수를 말합니다. 예를 들어 사람의 키나 몸무게는 소수점 형태인 실수형으로 표현되는데, 이런 키나 몸무게는 다 연속확률변수입니다.

뭐 본인의 키가 170 ! 이렇게 말하는 분들도 있겠지만, 그건 그냥 기계가 모든 소수점을 표현하지 않아서 그렇습니다.

키가 170이라고 외치는 사람들 서로 나란히 세워서 키 비교해보면, 엄밀하게 확인했을 때 같은 사람 아무도 없을 겁니다.

 

자 암튼 변수가 이산확률변수냐, 연속확률변수냐에 따라 우리가 이러한 값들을 표현하는 것부터, 계산하는 것까지

크게 보았을 때 원리는 같지만, 디테일하게 보면 약간 다릅니다.

 

이제부터 기댓값과 분산의 얘기를 해볼게요.

항상 발로 그린 수식 죄송합니다.

우리가 지난번에 다루었던 평균의 개념과 크게 다르지 않습니다.

기댓값은 쉽게 말해서 확률변수의 가중평균을 의미합니다.

평균은 우리가 산술평균으로 정의하여 계산했죠? 즉, 변수의 총합을 변수의 수(N)으로 단순히 나눠주었습니다.

그러나 기댓값은 위 공식을 보면, 확률변수 x에 f (확률입니다.)를 곱해서 각각 더해주고 있어요.

잘 뜯어보면 평균 공식도, 각 변수 x에 1/n을 곱해서 모든 항을 더해주는 것과 마찬가지죠? (합 기호인 sigma 사용)

기댓값도 마찬가지지만, 만약 확률이 각 확률변수에 따라 상이하다면, 아무래도 확률이 더 큰 확률변수에 일종의 가중치가 부여돼서 곱해지게 될 거예요.

 

예를 들어, 임의의 변수 X의 값이 6과 7만 있는 이진변수라고 가정합시다.

만약 두 변수의 확률이 동일하다면, X의 평균은 (6+7)/2 or 6/2 + 7/2 = 6.5가 될 거예요.

이는 위 기댓값 공식에 대입해서 풀어봐도 동일합니다.

 

그러나 만약 두 변수의 확률이 0.4, 0.6이라면, 이때 확률변수 X의 기댓값은 6 x 0.4 + 7 x 0.6 = 2.4 + 4.2 = 6.8이 됩니다.

이러한 의미에서 기댓값을 가중평균이라고 부릅니다.

 

기댓값은 X가 이산확률변수냐, 연속확률변수냐에 따라 공식이 약간 다릅니다.

이산확률변수일 때는 단순 합인 sigma를 이용해 각 x와 그에 대응되는 확률을 곱하고, 모든 항을 더해서 구할 수 있어요.

그러나 연속확률변수일 때는 직접 셀 수 없으므로, 적분의 개념을 이용하여 잘게 쪼갠 항을 더해줍니다.

적분도 사실 sigma에서 n을 임의의 유한한 수가 아닌, 무한대로만 취해준 꼴이기에 원리에서 큰 차이는 없죠?

 

다만 이때 각 식에서 곱해주는 함수 f(x)는 확률을 함수의 형태로 표현한 것입니다.

이산확률변수일 때는 이 함수를 확률질량함수, 연속확률변수일 때는 확률밀도함수라고 불러요.

 

이건 추후 포스팅에서 다루겠습니다.

 

기댓값의 성질은... 적기 귀찮으니 네이버 사전의 캡쳐본으로 첨부합니다.

출처 : 네이버 사전

 

기댓값을 확인했으니 분산을 확인해볼텐데, 분산도 뭐 개념은 이전과 동일합니다.

그냥 확률변수 X가 X의 평균으로부터 얼마나 퍼져있는지를 나타내는 측도예요.

 

다만 공식을 위에서도 나와있듯이 두 가지 형태로 표현해볼 수 있는데요.

간단한 유도 과정을 적어봤습니다.

별로 어렵진 않죠?

처음 공식도 좋지만, 개인적으로 후자를 선호하는 편입니다.

편차 일일히 제곱해서 해주려면 너무 귀찮아요...

 

시간 여유가 있으신 분들은 위 주사위 예제를 한번 공식에 의해 구해보시기 바랍니다.

 

 

감사합니다.

잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)

(구독이면 더욱 좋습니다 ^_^)

 

 

 


- 간토끼(DataLabbit)

- University of Seoul

- Economics, Big Data Analytics

728x90

+ Recent posts