728x90

안녕하십니까, 간토끼입니다.

첫 서평이네요.

오늘 소개해드릴 책은 책만에서 출판한 데이터 시각화 교과서라는 책입니다.

https://www.onlybook.co.kr/entry/dataviz

데이터 시각화 교과서

데이터 시각화 교과서 데이터 분석의 본질을 살리는 그래프와 차트 제작의 기본 원리와 응용 클라우스 윌케 지음 | 권혜정 옮김 | 최재원 감수 | 376쪽 | 28,000원 2020년 2월 20일 출간 | 185*240*16 | ISBN

www.onlybook.co.kr


우연히 페이스북에서 책만의 이벤트를 보고 응모하여 당첨되어 책을 받았습니다.

당장 이 책을 활용하여 어떤 걸 만들어내야할 정도까진 아니었어도, 앞으로 이 분야를 공부하면서 매우 필요하겠다는 판단이 들어 응모하였는데 운이 좋았던 것 같습니다.

이 책의 목차는 다음과 같습니다.
(하단의 더보기를 클릭해주세요 ^^)

더보기

1장_ 시작하며: 이 책의 내용과 구성

__이 책의 예시 그래프를 이해하는 법

[1부] 데이터, 시각화로 날개를 달다

2장_ 데이터 시각화: '읽는' 데이터에서 '보는' 데이터로

__시각적 속성의 의미와 데이터 유형

__데이터 값을 시각적 속성으로 바꾸기

3장_ 위치 스케일: 좌표와 축

__데카르트 좌표

__비선형 축

__곡선 축이 있는 좌표계

4장_ 색상 스케일

__색을 활용한 데이터 구분

__색을 활용한 데이터 값 표현

__색을 활용한 강조

5장_ 다양한 시각화 방식

__수량의 시각화

__분포의 시각화

__비율의 시각화

__x-y 관계로 나타내는 시각화

__지리공간 데이터의 시각화

__불확실성의 시각화

6장_ 수량 데이터의 시각화

__막대 도표의 다양한 활용

__묶은 막대와 누적 막대

__점 도표와 히트맵

7장_ 데이터 분포의 시각화: 히스토그램과 밀도 도표

__단일 분포 상태의 시각화

__여러 분포 상태를 하나의 도표로 시각화

8장_ 데이터 분포의 시각화: 경험적 누적 분포 함수와 QQ 도표

__경험적 누적 분포 함수

__고도의 비대칭 분포

__QQ 도표

9장_ 여러 분포 상태의 결합 시각화

__가로축에 기준을 둔 분포 상태의 시각화

__세로축에 기준을 둔 분포 상태의 시각화

10장_ 비율 데이터의 시각화

__파이 차트

__병렬 막대 도표

__누적 막대와 누적 밀도 도표

__전체 대비 부분 비율의 표현

11장_ 비율 데이터를 내포 형태로 시각화

__내포 비율 시각화의 잘못된 사례

__모자이크 도표와 트리맵

__내포 파이 차트

__평행 집합

12장_ 여러 정량 변수의 관계 시각화

__산점도

__상관곡선

__차원 축소

__쌍 데이터

13장_ 독립 변수의 시계열 데이터와 함수 시각화

__단일 시계열 데이터

__다중 시계열 데이터와 용량-반응 곡선

__2개 이상의 반응 변수를 포함한 시계열 데이터

14장_ 추세의 시각화

__평활화를 통한 데이터 보정

__정의된 함수 형식으로 추세 시각화

__추세 제거와 시계열 데이터 분해

15장_ 지리공간 데이터의 시각화

__투영 도법

__레이어를 활용한 지도

__단계구분도

__단순화한 카토그램

16장_ 불확실성의 시각화

__빈도의 개념을 이용한 확률의 시각화

__점 추정의 불확실성 시각화

__곡선 적합의 불확실성 시각화

__가설적 결과 도표

[2부] 그래프 디자인의 기본 원칙

17장_ 잉크 양 비례의 원칙

__선형 축 도표 그리기

__로그 축이 있는 도표 그리기

__데이터 값을 면적으로 나타내기

18장_ 오버플로팅: 겹치는 점 처리 방법

__반투명 값과 지터링

__2차원 히스토그램

__등고선 그래프

19장_ 효과적인 색 사용을 위한 조언

__목적 없는 무분별한 색 사용은 금물

__비단조적 색상 스케일 구성

__색각 이상자를 배려하자

20장_ 불필요한 기호화

__불필요한 기호화는 범례 디자인을 망친다

__범례가 없어도 좋은 도표

21장_ 여러 개의 패널로 구성된 도표

__소형 다중 패널

__복합형 도표

22장_ 제목, 캡션, 표의 효과적 활용

__도표 제목과 캡션

__축과 범례 제목

__표, 제대로 만들기

23장_ 데이터 이해를 돕는 시각화의 주변 요소

__적절한 수준의 요소 활용

__배경 격자

__쌍 데이터

24장_ 축 레이블의 글자는 큼직하게

25장_ 선 그림은 피하자

26장_ 3차원 그래픽과 차트는 그만

__불필요한 3차원 그래픽은 지양하자

__3차원 위치 스케일도 이제 그만

__3차원 시각화가 필요한 경우

[3부] 시각화 레벨업을 위한 꿀팁

27장_ 가장 흔히 쓰는 이미지 파일 형식

__비트맵과 벡터 그래픽

__비트맵 그래픽 무손실 및 손실 압축

__이미지 형식 변환하기

28장_ 올바른 시각화 소프트웨어 선택법

__재현 가능성과 반복 가능성

__데이터의 탐색적 분석과 데이터 표현

__내용과 디자인은 분리하자

29장_ 스토리텔링과 요점 전달

__이야기란 무엇일까

__장군님을 위한 도표 만들기

__방대한 정보는 복잡한 도표로

__기억에 남는 도표 만들기

__일관성을 유지하되 반복은 피할 것


이 책의 장점 중 하나는 기술통계만을 위한 시각화가 아니라, 통계 기법에 대한 시각화도 같이 담겨있다는 점이 매력적이었습니다.

예를 들어 정규성 검증을 위해 쓰이는 QQ-플롯이나, 차원 축소(Ex. PCA) 등 기법을 위한 시각화 등 통계적 이론을 위한 시각화도 있다는 점이 좋았습니다.

그리고 매번 제가 관심만 있고 실천에 옮기지 않았던 지리 공간 데이터를 적절히 그래프로 시각화하는 방법도 알려주고 있죠.

개인적으로 지리 데이터는 한번 GIS 등의 툴을 이용해 다뤄보고 싶은데, 참 기회가 없는 것 같습니다 ^^;

사실 이런 것보다도 이 책의 핵심은 다음과 같습니다.

바로 다른 데이터 시각화 관련 책과 다르게 책 자체에 특정 코드가 기술되어있지 않다는 것이죠.

보통은 데이터 시각화를 다룬다고 한다면 파이썬을 이용한 시각화라든지, 혹은 R의 패키지를 이용한 시각화라든지...
시중의 책들은 특정 언어에 기반하여 시각화 기법을 소개하고, 이를 위해 실습해볼 수 있도록 다양한 코드를 제공하곤 합니다.

오히려 이것이 당연하다고 느낄 정도였죠.
보통 자기계발서가 아닌 책을 산다면, 당장 실무 혹은 프로젝트에 쓸 수 있는 실용적인 책을 원하기 마련이니깐요.

하지만 이 책은 정말 말 그대로 교과서입니다.
물론 이 책에 쓰인 다양한 시각화 Plot 유형은 R의 대표 패키지인 ggplot2를 기반으로 작성되었지만,
이 책의 저자는 책에 직접적으로 코드를 첨부하지 않았습니다. 그게 굉장한 매력이죠.

처음엔 아이러니할 수 있습니다.
'아니, 나는 이론이 아니라 당장 적용할 시각화 기법이 필요한데?'
물론 저도 처음엔 이런 생각이었습니다.

그러나 왜 이 책이 교과서인지 곰곰이 생각해보면,
사실 특정 언어에 기반한 코드 중심의 서술은 당장의 필요를 위해 요긴하게 쓰일 수 있겠으나, 장기적으로 보았을 때 스스로 시각화 이론이 어떠한 의미를 가져다주는지는 인식시키지 못하겠다는 생각을 했습니다.
막말로 평생 그 언어만을 사용하리란 보장도 없죠.

결국 우리는 이론 자체를 계속 곱씹어봐야합니다. 적어도 앞으로 데이터 분석을 하기 위해서는요.
그래야만 어떠한 책이 없는 상황에서도 나만의 시각화 기법을 적극적으로 활용할 수 있을 것입니다.

물론 코드가 필요하다면 저자의 깃허브에 접속하면 됩니다. 이 책에 쓰인 Plot을 만드는 방법에 대한 코드가 다 있습니다.

어쨌든 데이터 분석을 할 사람이라면 시각화(Visualization)은 떼려야 뗄 수 없는 관계일 것입니다.
결국 우리가 분석한 것을 바탕으로 누군가를 설득시키려면, 복잡한 통계 이론을 구구절절 설명하는 것보다 직관적으로 표현하는 게 훨씬 좋으니깐요.

아마 저와 비슷한 학부생들은 지금까지 시각화라고는 선, 막대, 파이 그래프 등의 기본적은 시각화 도구만 사용했을 것입니다.

그러나 우리가 가진 데이터를 살펴보고 인사이트를 얻는 탐색적 데이터 분석(EDA)부터, 실제로 모델링을 하여 도출한 최종 결과를 제시할 때까지 시각화는 요긴하게 쓰입니다.
그리고 우리의 분석 리포트를 풍성하게 만들기 위해서는 어쩌면 복잡한 모델링보다 획기적이고 세련된 Plot 하나가 더욱 매력적일지도 모릅니다.
이를 위해 저자는 시각화를 위한 다양한 Tip도 소개하고 있고요.
그렇기에 우리는 이 책을 통헤 자신만의 매력을 만들어 나갈 수 있을지도 모릅니다.

또한 이 책은 저처럼 미적 감각이 떨어지는 독자를 위해 최적의 색상 스케일도 설명해줍니다. 좋죠? ㅎㅎ

아무쪼록 저와 비슷한 학부생 독자들이 이 책을 읽고 단순히 분석만 잘하는 것이 아닌, 내가 도출한 결과를 효과적으로 표현하는 방법론에 대해서도 배워갈 수 있기를 바랍니다.

감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)



- 간토끼(DataLabbit)
- University of Seoul
- Economics, Data Science

728x90

+ Recent posts