안녕하십니까, 간토끼입니다.
첫 통계학 이론에 관한 포스팅이네요.
이번에는 기초통계학의 가장 첫 부분에 나오는 기술통계학에 대해서 다뤄보겠습니다.
기술통계학이란 것이 굉장히 전문적인 것처럼 보이지만, 우리가 중학교 때부터 다루었던 도수분포표, 평균, 분산 등 자료의 성질을 기술하는 것을 목적으로 통계 데이터를 정리하고, 요약하는 방법을 고찰하는 통계학을 말합니다.
통계학은 크게 두 가지 분야로 나뉘는데요. 하나는 기술통계학이고, 다른 하나는 추론통계학이라고 부릅니다.
이때 기술통계학은 집단(우리가 보유한 통계자료라고 합시다)의 특성을 기술하는 데 목적을 두고 있고요.
평균, 분산, 표준편차, 상관계수 등 통계량을 이용해 자료의 분포를 파악하고, 특성을 기술하는 방법이 있고,
도수분포표, 히스토그램, Box-Plot(상자그림), 나무-잎그림(Stem-and-leaf), 산점도 등 그림을 이용해 자료의 특성을 요약하는 방법이 있습니다.
이번 포스팅에서는 전자의 방법 중 평균, 분산, 표준편차 등에 대해서 다뤄보도록 하겠습니다.
먼저 우리는 우리가 속한 집단, 혹은 특정한 집단에 대해서 일반화된 특성을 알고 싶어 합니다.
예를 들어 BMW를 타고 다니는 사람을 보면 "돈을 잘 벌 것이다." 라는 생각을 하고,
현대자동차의 아반떼를 타고 다니는 사람을 보면 "음 그냥 평범하구나" 라고 생각을 하겠죠?
사실 BMW를 타고 다니는 사람은 월 200의 소득 중 150을 리스비에 사용하는 카푸어고,
아반떼를 타고 다니는 사람은 월 600을 벌지만 출퇴근 용도의 목적으로 연비가 좋은 아반떼를 서브로 구입했다는 사실을 안다면 충격을 받겠지만요.
이런 걸 우리는 이상치(Outliers)라고 해요. 이게 흔한 사례는 아니잖아요?
실제로 BMW를 타고 다니는 집단은 어느정도 부유한 사람들로 이루어져 있을 것이고,
아반떼를 타고 다니는 집단은 BMW에 비해 부유한 집단이라고 보기엔 어려울 것입니다.
이처럼 우리는 특정 집단을 대표하는 값이 어떤지 파악하려고 하고, 그러한 값을 바탕으로 종종 일반화를 하곤 합니다.
물론 위 사례처럼 일반화의 오류가 발생하기도 하지만요.
그래서 이번에 다뤄볼 내용은, 이렇게 특정 집단을 대표하고 특성을 설명하는 통계량에 대해서 살펴보는 것입니다.
예시를 위해 임의의 집단을 가정합시다.
A = (167, 170, 173, 176, 179) , B = (165, 169, 173, 177, 181) 라는 집단을 가정할게요.
음... 대충 예상이 가시죠? 남자들의 키를 측정하여 모아놓은 자료입니다.
먼저 평균(mean)은 단순히 모든 관측치을 더해서 관측치의 개수(N)로 나눈 것입니다.
이런 평균을 산술평균이라고 하는데요. 뭐 기하평균, 조화평균 등 여러 평균도 있긴 합니다만, 논외로 하겠습니다.
참고로 위 평균 기호는 '뮤' 라고 읽는데요. 앞으로 (모)평균은 저 표기를 사용하겠습니다.
또한 분산 및 표준편차에 있는 기호는 '시그마'라고 읽습니다. 이 또한 (모)분산, (모)표준편차는 저 기호를 사용할 예정인데, 참고로 모분산과 표본분산의 공식이 약간 다릅니다. 다음에 다룰 예정입니다.
아무튼 위 공식에 대입해보면 A의 평균은 173이고, B의 평균도 173이겠네요.
우리가 만약 평균만 놓고 본다면, 두 집단 구성원의 키는 대충 173이겠네~ 라고 하겠죠?
그러나 두 집단 구성원의 키를 살펴보면, 오히려 B의 구성원은 A보다 작은 인원도 있고, 큰 인원도 있습니다.
즉, 데이터의 퍼져 있는 정도가 평균을 중심으로 차이가 있습니다.
이렇게 자료가 평균을 중심으로 퍼져있는 정도를 우리는 분산이라고 합니다.
한번 분산 공식에 대입해볼까요?
A의 분산은 18이 나오고, B의 분산은 32가 나오네요. 차이가 제법 있죠?
분산이 클수록 우리는 자료가 평균을 중심으로 많이 퍼져있다고 합니다.
이는 왜냐하면, 분산의 공식을 보면 각 관측치 xi에 x 평균을 빼주고 있기 때문이에요.
즉 각 관측치와 평균의 차이(=편차)를 갖고 계산을 하기 때문에, 평균으로부터 얼마나 떨어져있는지를 구할 수 있게 되는 거죠.
그럼 왜 제곱을 이용하여 표현할까요?
한번 제곱을 빼고 A그룹의 편차의 합을 계산해보겠습니다.
각 관측치로부터 평균을 빼주면 (-6, -3, 0, 3, 6) 이 나오죠? 한번 다 더해볼게요. 어떤 값이 나오나요?
바로 0이 나오는데요. 편차의 단순합은 0이 되어버리는 특성이 있기 때문에 제곱합을 이용해주는 겁니다.
집단이 좌우대칭이라 그런 거 아니냐고 생각할 수도 있겠죠? 한번 집단을 랜덤으로 바꿔볼게요.
대충 C = (1, 6, 8, 13, 22) 이라고 가정합시다. 이때 C의 평균은 50/5 = 10이 나오네요.
편차합도 구해봅시다. (1-10, 6-10, 8-10, 13-10, 22-10) = (-9, -4, -2, 3, 12) 가 편차고 이를 다 더하면 -15 + 15 = 0이 되네요. 신기하죠?
이래서 우리는 편차합이 아닌, 편차제곱합을 사용하는 겁니다. 0이 되는 것을 방지하기 위해요.
그래서 결론은 분산이 작을수록 우리는 선호합니다.
왜냐하면 분산이 작다는 것은 평균을 중심으로 자료가 모여있다는 뜻이고, 이는 우리가 특정 집단의 평균을 보고 그 집단의 수준을 예측할 때 틀릴 확률이 적다는 것이죠.
이는 분산이 작으면 일반화 가능성이 높다는 뜻이 되기도 합니다.
위 A, B 집단으로 돌아가서, 두 집단의 평균은 똑같이 173이지만
우리가 A 집단 중 임의로 한 명을 골라 키를 예측했을 때 173에 가까울 확률과, B 집단 중 예측했을 때 173에 가까울 확률을 비교하면 전자가 더 높을 겁니다.
그래서 우리는 분산을 어떻게 하면 줄일 수 있을지, 고민하곤 합니다.
일반화를 잘해서 손해볼 건 없으니까요.
표준편차는 그냥 분산에 루트를 씌운 거예요.
즉 평균 뮤를 중심으로 보았을 때 각 관측치가 평균적으로 어느 정도 퍼져있는지 계산한 값이라고 생각하시면 돼요.
이번에는 중위값에 대해서 얘기해보겠습니다.
우리가 대학교에서 수업을 듣고 시험을 본 후에 학생들이 '중위값 알려주세요 ~' 라고 하는 걸 본 적이 있을 겁니다.
왜 그럴까요?
중위값은 상위 50%값, 즉 집단의 정중앙에 있는 자료를 의미해요.
예를 들어 5개의 자료를 순서대로 세워놓으면 3번째에 위치한 자료가 되겠죠.
이를 학생들이 왜 궁금해하냐면, (서울시립대 기준) B+ 학점은 최대 상위 50%까지만 줄 수 있는데,
내 점수가 상위 50%를 넘는지에 따라 B+이라도 받는지, 혹은 내가 시험을 객관적으로 잘 본 게 맞는지를 알 수 있기 때문입니다.
말이 나왔으니까 대충 중간고사 성적이라는 예를 들어볼게요.
A = [30, 40, 55, 60, 80, 90, 100] 이란 집단과, B = [62, 63, 64, 65, 66, 67, 68] 이란 집단을 가정해봅시다.
A,B 모두 평균을 구해보면 65죠?
오~ 제법 높네요.
한번 임의의 학생이 65점을 받았다고 가정합시다.
이 학생은 A집단에 들어가면 평균 점수랑 같음에도 불구하고 중간보다 높아요. 신기하죠?
근데 B집단에서는 65점이면 딱 중간이에요. 상위 50%라는 거죠.
이처럼 평균값은 항상 자료의 정중앙을 보장하지 않습니다. 자료가 어떤 분포냐에 따라, 극단적으로 낮거나 높은 값이 있냐에 따라 영향을 받기 쉬워요.
그래서 우리는 중위값을 같이 사용하면서 자료의 분포를 파악해야 합니다.
최빈값이란 친구도 있는데요. 그냥 어떤 값이 제일 많이 나왔냐 보여주는 친구인데... 썩 자주 쓰이는 개념은 아닙니다.
자료의 분포를 파악할 때정도? 암튼 그렇습니다.
오늘은 기본적인 통계량에 대해서 다뤄봤고요.
다음 포스팅에서는 모집단과 표본집단에 대해서 다뤄보겠습니다.
감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)
- 간토끼(DataLabbit)
- University of Seoul
- Economics, Big Data Analytics
'Statistics > Basic Statistics' 카테고리의 다른 글
[기초통계학] 확률(Probability) 2 - 결합확률, 주변확률, 조건부확률 (6) | 2020.05.21 |
---|---|
[기초통계학] 확률(Probability) 1 - 확률의 기본 개념 (0) | 2020.05.20 |
[기초통계학] 공분산과 상관계수 (10) | 2020.05.19 |
[기초통계학] 확률변수와 기댓값, 분산 (2) | 2020.05.18 |
[기초통계학] 기술통계학(Descriptive Statistics)기초 2 - 모집단과 표본집단 with 모수&통계량 (2) | 2020.05.15 |