728x90

안녕하십니까, 간토끼입니다.

이번 포스팅은 2019년에 교내 대회에 참여하며 지인들과 같이 진행했던 프로젝트인 '검색어 트렌드 데이터를 활용해 알아보는 대한민국의 자살 징후' 프로젝트에 대해 소개해볼까 합니다.


비교적 최근에 했던 프로젝트인데요.

제가 재학중인 학교에서 작년 처음으로 '빅데이터연계경진대회'라는 대회를 통계학과에서 주관하여 개최하였는데,
재밌어보여서 친한 수학과 학우들과 함께 참여했었습니다.

주제는 자율적으로 짜되, '데이터 시각화(Data Visualization)'에 초점을 맞추는 방향으로 준비했어야 했습니다.
특히 분량도 각 팀당 7페이지 이내로 적은 편에 속했고요.

실제 프로젝트를 수행한 기간은 자세히 기억은 안 나는데 7일 ~ 10일 정도 되었던 것으로 기억을 합니다.

# 분석 배경
작년 기준으로 설리의 자살 사건 등 유명 연예인들의 자살 사건이 잇따르면서 대중들에게 큰 충격을 안겨주었죠.
사실 우리나라는 2018년 OECD 회원국 중 평균 자살률을 휠씬 웃돌며 1위에 올라서는등 여전히 자살 공화국이라는 오명을 벗지 못하고 있습니다.

통계청이 발표한 2018년 사망원인통계 에 따르면 하루 평균 스스로 목숨을 끊은 이는 37.5 명으로 특히 10 대 등 젊은 연령층에서 크게 늘고 있다는데요.

자살은 사회적으로도 큰 파장을 가져오는 심각한 사회문제이기 때문에 적절한 예방책이 필요하다고 생각했습니다.

그래서 실제 데이터 분석을 통해 이러한 사회적 문제를 예방할 해결책을 찾아서 제시하면 좋을 것 같다고 판단했습니다.


대부분도 공감을 하시겠지만, 학교에서는 설문조사를 통해 자살 예방을 꾀하고 있어도 거짓 작성의 여지가 있어 예방효과를 기대하긴 어렵습니다.
실제로 장난식으로 여겨 진지하게 설문에 응답하는 아이들도 찾아보기 힘들죠.

자살예방센터의 경우에도 자발적으로 도움을 요청하는 사람만 도움을 받을 수 있으므로 선택적 예방조치에 불과합니다.
따라서 이러한 상황에서 자살을 생각하고 있는 사람이 누구인지 데이터를 통해 파악할 수 있다면 자살예방 대책에 큰 혁신을 가져올 것이다라고 생각했습니다.


# 분석 과정 요약
저희가 분석의 핵심 키워드로 꼽은 건 다음과 같습니다.
자살을 고민하는 사람들은 겉으로는 직접적으로 표현을 못하지만, 누군가에게 표현은 하고 싶을 것이란 거죠.

대부분의 사람들은 '자살각'이라는 단어처럼 '자살'을 농담식으로 소비하지, 직접적으로 자살에 대해서 누군가에게 꺼내지 않습니다.
그러한 분위기 속에서 자살을 고민하는 사람들은 겉으로는 표현하기 어려워해도, 인터넷 검색 포털 등의 익명창구에서는 한번쯤 검색이라도 해봤을 것이란 말이죠.
그래서 이러한 검색어 데이터 가 실제 행동의 징조를 나타낼 수 있을 것이라는 가정 하에, 자살 검색량 데이터와 실제 자살률 데이터를 이용하여 그러한 성향이 일치하는지에 대한 분석을 진행했습니다.


분석 기법 K-Means Clustering 기법을 메인으로 하였으며, R 파이썬을 이용하였습니다.
구체적인 분석 방법은 영업 비밀이라 ㅎㅎ
하지만 생각보다 간단하면서도 재밌고 흥미로운 프로젝트였습니다.

거창한 분석 기법과 화려한 데이터를 쓰지 않아도 제법 결과가 재밌더라고요.
가끔은 단순하게 생각해보는 것도 좋은 방법인 것 같습니다.


감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)


- 간토끼(DataLabbit)
- University of Seoul
- Economics, Data Science

728x90

+ Recent posts