728x90

안녕하십니까, 간토끼입니다.

 

오늘은 길벗 출판사에서 제공 받은 59가지 통계학 궁금증 완전 정복에 대한 서평을 작성해보도록 하겠습니다.

 

 

여러모로 정말 오랜만에 올리는 포스팅이네요.

한동안 책을 제공 받을 기회가 있어도 서평을 남기고 싶을 정도로 적극적인 상황이 아니어서 그러질 않았었는데요.

우연히 이 책을 보고 나서, 이 책은 정말 읽고 서평을 남기고 싶어서 길벗 출판사로부터 제공 받았습니다.

데이터 분석, 데이터 사이언스 등의 키워드에 관심을 갖는 분들이라면 통계학은 사실 멀리하고 싶어도 그럴 수가 없는 학문인데요. 데이터를 다루는 것 자체가 통계학의 범주 안에 있기 때문이죠.

요즘은 꼭 이공계열/자연계열이 아니더라도, 사회과학이나 인문학 공부를 하는 분들도 통계를 워낙 많이 사용하니, 가장 실용적이면서도 우리에게 친숙한 학문이 통계학이 아닐까 싶습니다.

 

하지만 전공자가 아니라면 비전공자 분들은 통계학의 딱딱한 키워드가 꽤나 어렵기도 하고, 직관적으로 이해하기 어려워서 그저 기계적으로 암기하거나 피상적으로만 이해하고 적용하는 분들이 많으실 거라 생각해요.

이 책은 그런 분들에게 큰 도움이 될 것이라 생각합니다.


Q. 이 책은 어떤 책인가요?

제목에서도 알 수 있듯이, 통계학의 복잡한 개념을 독자가 직관적으로 이해할 수 있게 돕는 책입니다.

통계학은 사실 깊이 파고 들면 들수록 굉장히 복잡하고 체계적인 학문입니다. 알아야 할 개념도 정말 많고요.

다만 응용 분야에서 통계학을 보조 도구 정도로 활용하시는 분들은 그렇게까지 깊게 아실 일이 많지도 않고, 가장 많이 활용되는 영역은 흔히 기초통계학, 통계학개론이라고 불리는 정도의 개념들 정도라 생각합니다.

이 책은 기초통계학(통계학개론) 정도의 개념, 혹은 회귀분석을 공부하면서 들 수 있는 59가지의 궁금증을 제시하고, 이를 직관적으로 해소하기 위해 다양한 그림과 직관적인 예시를 통해 설명하는 책입니다.

크게 4가지 챕터로 구분할 수 있는데요.

Chapter 1. 통계학을 배우면서 드는 기본적인 궁금증 (Q1. ~ Q22.)

Chapter 2. 추론 통계를 배우면서 드는 궁금증 (Q23. ~ Q35.)

Chapter 3. 가설 검정을 배우면서 드는 궁금증 (Q36. ~ Q42.)

Chapter 4. 회귀 분석을 배우면서 드는 궁금증 (Q43. ~ Q59.)

챕터만 보셔도 제가 위에서 언급한 기초통계학 내용에서 느낄 수 있는 궁금증을 다룬 것을 알 수 있습니다.

그렇다고 이런 내용이 가볍거나 쉽지 않다는 건 아닙니다. 가장 흔하게 쓰이면서도, 자칫 잘못하면 오해할 수도 있는 개념들이거든요.

가령 가설 검정을 통해 도출되는 p-value를 기계적으로 0.05보다 작으면 우리의 모델이 타당하다고 결론 짓는 경우, 회귀분석의 가정을 명확히 이해하지 못하고 무작정 모델링을 해서 잘못된 결론을 도출하는 경우 등 우리 주변에서는 이러한 내용들을 흔하게 오해하고 해석하는 경우가 많습니다.

저도 이 책을 읽으면서, 통계학의 다양한 개념들을 명확히 이해하지 못하고 사용하던 경우가 있던 걸 깨달았을 정도로, 이 책은 꽤나 유익하고 추천하고 싶은 책이라고 생각합니다.


Q. 그럼 누구에게 추천하는 책인가요?

개인적으로는 통계학보다는 응용 분야에서 통계학을 사용하는 분들에게 추천하고 싶은 책입니다.

가령 사회과학 연구를 하시면서 회귀분석이나 t-test 등의 모형을 자주 사용하시는 분들,

혹은 데이터 분석을 배워보기 위해 통계학 공부를 하시는 비전공자 분들에게 추천하고 싶습니다.

저와 같은 경제학 전공자에게도 마찬가지로 추천하고 싶습니다.

 

왜냐하면 이러한 분들은, 보통 전공 수업을 예로 들면, '사회통계', '경영통계학', '경제통계학' 등 비슷한 기초통계학 내용을 학과에 맞게 다듬어진 수업을 수강하면서 통계학을 배우게 되는데요.

깊은 내용보다는 전반적으로 훑는 경우가 많고, 제 경험에 미루어 보았을 때 대부분 통계학을 썩 좋아하지 않는 분들이 많았습니다. 그러다보니 개념을 명확히 이해한다기 보단, 수업을 위한, 혹은 시험을 위한 공부 정도로만 마무리하고 기계적으로 활용하게 되더라고요.

사실 저만 하더라도 데이터 사이언스를 본격적으로 전공하기 전에는 비슷한 상황이었던 것 같아서, 꽤나 공감이 갑니다.

그렇기 때문에 이 책이 매우 효과적일 것이라 생각해요.

 

어쨌든 이 책이 다루는 주제는 기초통계학 전반의 내용이기 때문에, 최소한 기술통계, 확률의 기초, 추론 통계, 회귀분석 정도는 알고 계신 분들이 들으면 효과적일 것 같아요.

가령 최대우도추정의 개념을 설명하기 위해 우도(likelihood)의 개념을 '어떤 파라미터를 따르는 확률분포와 보유한 관측 값들의 일관된 정도를 의미'한다고 설명하고 있는데, 이걸 통계학을 처음 접하는 분들이 단번에 이해하기엔 어려움이 있을 거라 생각합니다.

하지만, 샘플이 주어져 있을 때 확률분포의 파라미터를 추정한다는 것이 무엇인지 감은 잡은 상태이고, 하지만 명확히 우도라는 개념이 무엇인지, 그리고 우도함수(likelihood function)을 최대화하는 파라미터를 찾는다는 개념이 무엇인지 이해하기 어려웠던 분들에게는 이 책의 설명이 효과적으로 다가오겠죠.

그러한 맥락에서 이 책이 '기초통계학 정도는 수강해본 독자들'에게 큰 도움이 될 수 있을 거라 생각합니다.

 

최대우도추정법(Maximum Likelihood Estimation)에 대해 좀 더 예시를 들어볼까요?

MLE를 접해보신 분들 중 명확한 이해 없이 문제를 풀어보신 분들은 이러한 경험에 공감하실 거라 생각해요.

가령 'MLE가 뭔진 모르겠지만, 주어진 샘플이 따를 것이라고 추정하는 확률분포의 pdf를 곱한 likelihood function을 정의하고, 여기에 로그를 취한 log-likelihood function을 정의한 후에, 확률분포의 파라미터 $\theta$에 대해 미분함으로써 최대우도추정량을 구하는 거 아니야?' 는 아신다고 하면,

정확히 가능도와 확률의 차이가 무엇인지, 그리고 log를 취하는 이유는 무엇인지 등에 의문을 가질 수 있다는 거죠.

 

 

이 책은 위와 같이 이러한 궁금증을 단계별로 해소해주고 있습니다.

우도와 확률의 차이부터, likelihood function의 의미, 이를 최대화하는 것의 통계적 의미, 그리고 우도에 로그를 취함으로써 얻을 수 있는 이점을 로그 함수의 성질을 이용해 설명하고 있습니다.

그러한 의미에서 이 책이 비전공자를 위한 체계적이고 좋은 설명을 제공한다고 생각했습니다.


Q. 이 책의 장점은 무엇인가요?

이 책의 장점은, 책에서 언급한 '59가지 궁금증'이 통계학을 공부해본 사람으로부터 나올 수 있는 훌륭한 궁금증이라는 점에서 통계학 전문가/비전문가에게 실용적인 책이라는 것입니다.

특히 인공지능과 빅데이터라는 개념이 보편적으로 사용되고 적용되면서 통계학의 중요성이 점점 커지고 있는 상황에서, 이러한 개념들을 명확히 이해하지 않고 도구를 사용하는 데 그치는 경우가 많다 보니 통계학을 잘못 이해하고 사용되는 상황 또한 많아지고 있다는 것이죠.

그래서 이 책은, 어떻게 보면 직접 시행착오를 겪은 사람으로부터 나온 통계학의 지혜를 가장 가성비있게 습득할 수 있는 책입니다.

직접 시행착오를 겪고 깨달으셨던 분들에게는 다시 한번 복습할 수 있는 기회가 되겠고, 아직 접하지 못한 분들은 실수와 오해를 사전에 방지할 수 있다는 기회가 되겠네요.

 

가령 사회과학쪽 연구자들의 이야기를 듣다 보면, p-value의 오해를 가진 분들이 많은 걸 알 수 있습니다.

회귀분석을 돌려서 p-value가 0.05 (혹은 다른 정도의 유의수준) 보다 작으면 무작정 좋다고 생각하는 분들이 있는데요.

간혹 통계학 책들에서도 소개하는 개념이지만 'Practical significance vs Statistical significance' 라는 개념이 있습니다.

통계학적 유의성(Statistical significance)는 p-value 등으로 나타나는 개념으로, 어떤 효과나 차이가 우연에 의할 가능성이 있다는 걸 알려주는 거고, 실질적 유의성(Practical significance)는 관측된 효과나 차이가 실제 상황에서도 유의미한 것인지를 의미하는데요.

간혹 통계학적 유의성으로 실질적 유의성까지 도출하는 분들이 있더라고요.

반대로 상관관계를 인과관계로 오인하는 분들도 있으시고요.

 

이 책은 이러한 오해를 해소해줄 수 있는 책입니다.

p-value가 작으면 좋다고 하는데 왜 좋은 건지? 그리고 p-value의 정확한 의미가 무엇인지? 등을 이 책을 통해 살펴보신다면 통계학의 흥미를 느끼실 수 있을 거라 생각합니다.

 

정리하면 이 책은 가볍게 읽을 수 있는 비전공자를 위한 통계학 길라잡이 정도로 말할 수 있겠습니다.

수식은 꼭 필요한 경우에만 써있고, 그 외 대부분은 수식없이 시각적으로 풀어 내고자 그림과 도표를 풍부하게 활용했다보니, 꼭 책상 앞에 앉아 써가면서 공부할 필요 없이 가벼운 마음으로 읽으셔도 충분해보입니다.

저도 ktx나 카페에서 지인을 기다릴 때 보는 용도로 읽었고, 그렇게 봐도 충분히 즐겁게 이해할 수 있습니다.

또한 저자의 유튜브 강의(https://www.youtube.com/@paintingscientist) 도 있으니, 가벼운 마음으로 이해가 안 되는 개념은 시청해보셔도 유익할 것 같습니다.

 

저도 나중에 박사 학위까지 받고 나면, 이러한 책을 써보고 싶단 생각이 있었는데,

제 꿈에 좋은 앵커가 될 것 같아 읽으면서 참 많은 걸 느끼게 됐네요.

 

정말 오랜만에 남들에게 추천해주고 싶은 책을 읽게 해주신 길벗 출판사에 감사함을 전합니다.

 

감사합니다.

 


- 간토끼(DataLabbit)

- Master's student in Data Science at KAIST

- B.A. in Economics & Data Science at Univ. of Seoul

 

728x90

+ Recent posts