728x90

Review

참고 포스팅 : 2020/05/14 - [Statistics/Basic Statistics] - [기초통계학] 기술통계학(Descriptive Statistics)기초 1 - 평균, 분산, 표준편차 등

 

[기초통계학] 기술통계학(Descriptive Statistics)기초 1 - 평균, 분산, 표준편차 등

안녕하십니까, 간토끼입니다. 첫 통계학 이론에 관한 포스팅이네요. 이번에는 기초통계학의 가장 첫 부분에 나오는 기술통계학에 대해서 다뤄보겠습니다. 기술통계학이란 것이 굉장히 전문적��

datalabbit.tistory.com

 


안녕하십니까, 간토끼입니다.

 

저번 포스팅에서는 기초적인 통계량에 대해서 몇 가지 다뤄봤는데요.

 

이번에는 모집단표본집단에 대해서 다뤄보겠습니다.

 

우리는 주변에서 여러 설문조사를 접하게 됩니다.

한번 생각해볼까요? 얼마전에 국회의원 선거가 있었죠?

특정 후보자, 혹은 정당의 지지율을 파악하는 여론조사를 심심치 않게 보셨을 겁니다.

근데 보면 나한테는 여론조사 전화가 딱히 안 왔는데, 20대 대학생의 정당별 지지율 이러면서 설문조사 통계가 올라와요.

어이가 없죠? 너가 뭔데 날 판단하냐....

 

이는 현실적으로 20대 대학생의 모든 생각을 다 물어볼 수 없다는 문제에서 출발하게 됩니다.

가장 좋은 건 20대 대학생을 모두 앉혀놓고, 생각을 한명씩 다 물어보는 거겠죠.

근데 그럴 수 없잖아요? 엄청 많고 시간도 오래 걸릴텐데 말이죠...

 

그래서 우리는 집단 내 많은 구성원 중 특정 집단만 추출해서 설문조사를 진행합니다.

출처 : 뉴시스, 리얼미터, 21대 총선 정당후보 지지도 여론조사

한번 예시를 볼까요? 우측에 보면 전국 성인 1011명 응답이라고 되어있어요.

즉 1011명만 갖고 전국의 모든 성인의 생각을 추론한다는 거예요. 와우!

 

이때 우리는 전국 성인을 모집단(Population)이라고 하고, 그중 1011명을 표본집단(Sample)이라고 합니다.

 

사실 이 1011명의 생각이 전국 성인 몇천만명을 대변하지 못할 수 있어요.

그래서 우리는 생각이 틀릴 수 있음을 감안하여 신뢰수준 및 표집오차라는 정보를 표기하고,

최대한 이 표본이 모집단을 대표할 수 있도록 설계합니다.

 

이때 어떠한 샘플링(Sampling) 기법을 사용하냐, 즉 어떻게 사람을 추출하냐에 따라서 정확도가 달라질 수도 있고, 그 결과를 신뢰할 수 있는지도 달라져요.

다른 말로는 표본이 대표성을 갖냐고 합니다. 이건 여기서 다룰 문제는 아니고, 통계조사론에서 적절한 샘플링 기법에 대해서 탐구합니다.

작년 1학기에 재밌게 들었던 기억이 있네요 ㅎㅎ

 

자 어쨌든 우리는 통계를 다루다보면, 현실적으로 모집단에 대해서 다루기 어려운 경우가 정말 많습니다.

저번에 예를 들었던 반 아이들의 키를 묻는 문제나, 전공수업 수강생의 시험 점수를 묻는 문제 등 집단 구성원이 상대적으로 작은 경우엔 굳이 표본을 추출하지 않아도 상관없어요.

대충 n=30 전후니까 n=10으로 하나, n=30으로 하나 계산하는데 어려움이 없겠죠?

 

근데 집단이 20대 대학생, 30대 직장인, 나아가서 뭐 성인 남녀 ... 등 현실적인 문제의 답을 알고 싶어질 땐 어려움이 생깁니다.

작게는 몇백만부터 크게는 몇천만까지... n의 크기가 훨씬 크므로, 이들에 대해서 모든 정보를 알기가 어려워요.

이때 우리는 두 가지 선택의 갈림길에 놓일 겁니다.

1) 그래도 모집단을 전부 조사한다.

2) 그냥 조금 틀릴 거 감수하고 표본을 추출한 후 최대한 예측해보려고 노력한다.

 

가장 좋은 건 1번일 거예요. 근데 현실적으로 1번은 불가능하고, 만약 가능한다해도 비용과 시간이 너무나 많이 듭니다.

따라서 지극히 현실적으로 2번을 선택하게 됩니다. 대신 최대한 틀리지 않도록 노력하게 되겠죠?

 

이때 우리는 표본을 이용해 모집단을 추론하는 추론통계를 다루게 됩니다. 기술통계가 끝나면 나오겠죠?

 

자 그래서 우리가 알아야 할 부분은 모집단과 표본집단에 따라서 구하는 통계량의 공식이 약간 다릅니다.

 

사실 위에서는 분산만 조금 다른데요. (물론 기호도 다르지만)

모집단에서의 분산은 모집단의 수인 n으로 나눠줬지만, 표본집단에서의 분산은 표본집단의 수인 n에 1을 빼준 n-1로 나눠줍니다.

이 차이만 잘 기억하시면 될 것 같아요.

 

n이 아닌 n-1로 나눠주는 이유표본분산이 모분산의 불편추정량이 되도록 해주기 위해서인데요.

흠... 이것도 증명을 좀 해야하는데, 다음에 기댓값과 분산을 하면서 한번 다뤄봐야겠네요.

 

어쨌든 위 사진에서 왼쪽 모집단의 통계량은 우리가 모수라고 부르고요.

오른쪽 표본집단의 통계량은 통계량이라고 부릅니다.

 

통계량을 여러 의미로 사용해서 헷갈릴 수도 있는데... 뭐 암튼 그렇습니다.

 

초반엔 개념을 풀어서 쉽게 설명하고, 슬슬 내용이 어려워지면 엄밀하게 다뤄보도록 하겠습니다.

 

다음 포스팅은 원래는 데이터를 효과적으로 표현해주는 여러 plot등에 대해서 다룰 계획이었는데,

좀 노잼일 것 같아서요... 평균과 분산을 다뤘으니, 공분산을 다뤄봐야겠죠?

기댓값, 분산, 공분산을 다뤄보고 위에서 언급한 표본분산의 유도과정을 다뤄보겠습니다.

 

감사합니다.

잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)

(구독이면 더욱 좋습니다 ^_^)

 

 

 


- 간토끼(DataLabbit)

- University of Seoul

- Economics, Big Data Analytics

728x90

+ Recent posts