728x90

안녕하십니까, 간토끼입니다.

 

오늘은 한빛미디어의 <나는 리뷰어다 2021>의 일환으로 받은 데이터가 뛰어노는 AI 놀이터, 캐글에 대한 서평을 작성해보도록 하겠습니다.

 

 

 

데이터 분석, 데이터 사이언스, 인공지능, 머신러닝, 딥러닝 등등..

이런 키워드를 한번이라도 접해보고 관심이 있으신 분들이라면 "캐글(Kaggle)"이라는 키워드도 한번쯤은 접해보셨을 겁니다.

만약 데이터 사이언스와 관련한 책까지 읽어보신 분들이라면 단골 실습 소재로 등장하는 "타이타닉 예제"는 누구나 공감하실 친숙한 실습이죠.

이 타이타닉 생존자 예측 문제를 접해보셨다면 실제 캐글에 test.csv 를 올리셔서 점수까지 평가해보셨을 겁니다.

 

이처럼 캐글은 데이터 분석 경진대회가 운영되는 세계적인 플랫폼입니다.

캐글의 등록자 수는 2021년 3월 기준 630만 명이라고 하는데요. 많은 데이터 과학자, 데이터 분석가가 자신의 실력을 시험하고 점수를 쌓고자 대회에 참가합니다.

비유하자면 리그 오브 레전드(LOL; 롤)에서의 랭크 게임이라고 생각하시면 되겠네요. 본인의 실력에 따라 티어가 결정되는 시스템이거든요.

실제로 이 '티어'는 그 사람의 실력을 평가하는 중요한 척도가 되므로, 취업시 스펙으로 작용하는 경우도 크다고 합니다.

 

이처럼 이 책은 경진 대회에 참가해보려는 분들, 혹은 높은 상위권 진입을 목표로 하는 분들을 위해 제시하는 캐글의 가이드라인입니다.

 


Q. 이 책은 어떤 책인가요?

세계적인 데이터 분석 경진대회 플랫폼 '캐글(Kaggle)'에 진입하거나, 더욱 '잘 하고 싶은' 분들을 위해 제시하는 캐글의 가이드라인입니다.

데이터 분석가를 꿈꾸는 분들에게 중요한 경험으로 꼽히는 것 중 대표적인 것이 바로 '실제 분석 경험'인데요.

캐글에서 다뤄지는 데이터들은 단순히 분석을 위한 깔끔한 데이터가 아니라, 우리가 실무를 겪으며 마주칠 수 있는 실제 데이터, 즉 제대로 가공되지 않고 복잡한 형태를 띠고 있는 데이터죠.

그래서 캐글을 통해 실무를 간접적으로 경험할 수 있고, 이러한 경험이 축적되면 실무 그 이상의 역량을 쌓을 수 있는 기회가 되겠죠!

이처럼 캐글은 데이터를 도전하는 이들에게 정말 중요한 시작과 끝이며, 누구나 부담없이 즐길 수 있는 놀이터가 될 수 있습니다.

이 책은 캐글을 하는 모든 이가 한 권씩 소장하고 계속 보면서 학습할 만한 책이라고 저자는 말하고 있습니다.

 

이 책의 구성은 다음과 같습니다.

더보기

CHAPTER 1 경진 대회

1.1 경진 대회란?
1.2 경진 대회 플랫폼
1.3 경진 대회 참가부터 종료까지
1.4 경진 대회의 참가 의미
1.5 상위권 진입의 중요 팁

CHAPTER 2 경진 대회의 평가지표

2.1 경진 대회의 종류
2.2 경진 대회의 데이터셋
2.3 평가지표
2.4 평가지표와 목적함수
2.5 평가지표의 최적화
2.6 평가지표 최적화 사례
2.7 데이터 정보 누출

CHAPTER 3 특징 생성

3.1 이 장의 구성
3.2 모델과 특징
3.3 결측값 처리
3.4 수치형 변수 변환
3.5 범주형 변수 변환
3.6 날짜 및 시간변수 변환
3.7 변수의 조합
3.8 다른 정형 데이터와의 결합
3.9 집약하여 통계량 구하기
3.10 시계열 데이터 처리
3.11 차원축소와 비지도 학습의 특징
3.12 기타 기법
3.13 경진 대회의 특징 사례

CHAPTER 4 모델 구축

4.1 모델의 기본 이해
4.2 경진 대회에서 사용하는 모델
4.3 GBDT
4.4 신경망
4.5 선형 모델
4.6 기타 모델
4.7 모델의 기타 팁과 테크닉

CHAPTER 5 모델 평가

5.1 모델 평가란?
5.2 검증 방법
5.3 시계열 데이터의 검증 방법
5.4 검증 포인트와 기술

CHAPTER 6 모델 튜닝

6.1 매개변수 튜닝
6.2 특징 선택과 중요도
6.3 편중된 클래스 분포의 대응

CHAPTER 7 앙상블 기법

7.1 앙상블이란?
7.2 간단한 앙상블 기법
7.3 스태킹
7.4 앙상블 대상 모델의 선택 기준
7.5 경진 대회의 앙상블 사례

 


Q. 그럼 누구에게 추천하는 책인가요?

사실 가장 추천하고 싶은 분들은 캐글에 도전하고 싶지만 어떻게 하면 좋을지 막막해하는 분들이겠죠.

이는 저도 해당합니다. 마침 저도 캐글을 입문하려고 했거든요. ㅎㅎ

실제 공모전 수상 경력은 제법 많지만 캐글은 뭐랄까 무림의 고수들이 모인 곳입니다.

그래서 "진짜 실력"을 쌓는 지름길은 캐글에서 퍼포먼스를 보이는 것입니다.

 

아무튼 이 책은 입문하려는 분들에게도 용이합니다만... 반드시 캐글에만 국한되는 건 아닙니다.

데이터 분석 대회에서 보다 나은 퍼포먼스를 보이기 위한 팁들도 많고,

다양한 데이터를 잘 처리할 수 있는 방법들도 많죠.

 

 

예를 들자면 데이터 분석을 많이 경험해보지 못한 분들이 어려움을 겪는 것 중 하나가 시계열 데이터의 처리인데,

까다로운 시계열 데이터의 전처리에 대한 팁도 있습니다.


Q. 이 책의 장점은 무엇인가요?

입문자에게도 도움되지만, 입문자와 숙련자(?)의 사이에 있는 애매한 분들에게 큰 도움이 됩니다.

바로 특징 생성, Feature Engineering에 대한 팁이 정말 잘 돼있습니다!!

 

사실 모델링도 모델링인데 고수의 영역이 아닌 이상 대부분의 모델링은 비슷비슷하거든요.

결국 EDA와 전처리, 그리고 Feature Engineering에서 승부가 갈리게 되는데, 데이터 분석을 애매하게 하시는 분들도 이 부분이 약한 사람들이 많습니다.

 

그런 분들을 위해 이 책은 유용한 팁들을 제공하고 있습니다.

간단하게 챕터 3과 챕터 4를 발췌해서 보여드리면

CHAPTER 3 특징 생성

3.1 이 장의 구성
3.2 모델과 특징
3.3 결측값 처리
3.4 수치형 변수 변환
3.5 범주형 변수 변환
3.6 날짜 및 시간변수 변환
3.7 변수의 조합
3.8 다른 정형 데이터와의 결합
3.9 집약하여 통계량 구하기
3.10 시계열 데이터 처리
3.11 차원축소와 비지도 학습의 특징
3.12 기타 기법
3.13 경진 대회의 특징 사례

CHAPTER 4 모델 구축

4.1 모델의 기본 이해
4.2 경진 대회에서 사용하는 모델
4.3 GBDT
4.4 신경망
4.5 선형 모델
4.6 기타 모델
4.7 모델의 기타 팁과 테크닉

이렇게 되어 있는데요.

챕터 3에선 Feature Engineering, 그리고 챕터 4에선 모델링에 대한 팁들이 많이 수록되어 있습니다.

아마 큰 도움 되실 것이라고 자신할 수 있습니다.

 

아무튼 기대한 것 이상으로 유용한 부분이 정말 많네요.

개인적으로 학부에서 배운 것을 써먹고 싶은 대학생 분들에게 추천하고 싶은 책입니다.

공모전 준비할 때 꽤나 큰 도움이 될 거라 생각합니다.

 

감사합니다.

 


- 간토끼(DataLabbit)

- University of Seoul

- Economics & Data Science

 

728x90

+ Recent posts