안녕하십니까, 간토끼입니다.
여유가 있을 때 지금까지 했던 데이터 분석 관련 프로젝트 경험을 정리하여 게시하려고 합니다.
(딱히 누구를 보여주려고 게시하는 건 아니고, 활동 정리용이라 내용이 다소 부실할 수 있습니다.)
먼저 인생 첫 번째로 경험한 데이터 분석 프로젝트는 빅데이터와 정치현상분석이라는 프로그램에 참여하여 수행한 다중회귀분석 프로젝트입니다.

이 프로그램은 서울시립대학교에서 ACE+ 사업의 일환으로 국제관계학과에서 주관하였는데,
통계 프로그래밍 언어인 R을 프로그램 기간 동안 강의를 통해 배우고,
이후 여름방학 동안 교내 다양한 전공의 학우들과 팀을 꾸려 사회과학 전반에 걸친 여러 주제 중 특정 주제를 선정해 자유롭게 분석하여 결과를 발표하는 프로젝트 형식으로 진행되었습니다.
교내 수학과, 도시행정학과, 국제관계학과 등 다양한 성격의 학우들과 팀을 꾸려 약 2~3달 간 프로젝트를 진행하였습니다.

간단하게 연구 주제 소개를 하면, 주제는 지역 내 외국인 비율이 보수정당 지지율에 미치는 영향입니다.
이때 한창 제주도 난민에 대한 이슈가 열풍이었는데요.
난민의 유입으로 인해 지역 주민들의 난민에 대한 혐오(일종의 제노포비아)가 생긴다는 것을 포착하여 이를 변수의 조작화하여 연구할 수 있는 방법을 탐구하던 도중,
외국인에 대해 덜 우호적인(?) 입장이 보수 진영 측의 논리라는 것을 파악하였습니다.
(통상 민주당, 정의당 등 진보 계열의 정당이 이러한 이슈에 대해서 우호적이니깐요.)
그래서 이를 바탕으로 '지역 내 외국인 비율이 많을수록 이를 싫어하는 지역 주민도 많지 않을까? 그럼 보수정당지지율이 높으려나?' 라는 고민을 거쳐 최종 주제를 정하게 되었습니다.
서울시 행정동을 중심으로 연구한 것은 저희가 서울시립대학교 재학생이라는 나름의 상징성도 있지만,아무래도 전국으로 확대하기엔 자료 확보 문제 등 연구의 어려움도 있을 것 같아서,가장 대표적인 대한민국 수도 서울을 연구 대상지로 삼았습니다.
분석 방법은 '다중회귀분석(Multiple Linear Regression)'이고, 분석에 쓰인 언어는 R 입니다.

결론은 어느정도 잘 나오긴 했는데,
분석에 쓰인 데이터의 양이 다소 아쉬웠습니다. 데이터의 양을 더욱 확보했으면 결론을 더욱 타당하게 만들어주지 않았을까 싶네요.
또한 통제변수를 많이 확보하지 못한 것도 아쉬운 요소 중 하나입니다.
회귀분석에서 통제변수란, 연구자가 실제 연구하고자 하는 변수에 직간접적인 영향을 미칠 가능성이 있는 변수들이기 때문에 일단 연구과정에 포함시킨 후 이를 통제함으로써 보다 타당한 연구결과를 얻게 해주는 변수를 말합니다.
예를 들어 제가 가설에서 사용한 설명변수(x)는 외국인 거주 비율이고, 반응변수(y)는 보수정당지지율이죠?
하지만 보수정당지지율이라는 y에 영향을 주는 변수는 외국인 거주 비율 이외에도,
세대별비율(Ex. 젊은 층보다는 고령층이 보수정당을 지지할 것이다.),
경제학적변수(고소득층이 저소득층에 비해 보수정당을 지지할 것이다.),
성별 변수(남성이 여성에 비해 보수정당을 지지할 것이다) 등 여러 변수가 있습니다.
이러한 변수도 분석에 포함해야만 보다 타당한 연구결과를 얻을 수 있다는 것이죠.
그리고 모델의 성능을 높이는 방법도 좀 더 고민해보면 좋았을텐데 사실 학부 회귀분석 수업조차도 못 듣고 분석한 것이기에, 이때 느꼈던 아쉬움을 바탕으로 학부 수업을 들을 때 좀 더 집중하게 됐던 장점(?)이 있었습니다.
그래도 '회귀분석'을 처음으로 활용해본 프로젝트기도 하고, R을 본격적으로 사용해봐서 그런지 이 프로젝트를 계기로 R을 사용하는 데 조금 더 자신감을 갖게 되었습니다.
이래저래 처음 진행했던 프로젝트라 기억에 많이 남는 프로젝트입니다.
다행히 최종적으로 2위를 하며 좋은 결과를 얻을 수도 있었고요^_^
감사합니다.
잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)
(구독이면 더욱 좋습니다 ^_^)
- 간토끼(DataLabbit)
- University of Seoul
- Economics, Data Science
'Records > Project' 카테고리의 다른 글
| [Project] 2020년_중소기업 통계데이터 활용 정책아이디어 공모전(장려상) (5) | 2020.12.13 |
|---|---|
| [Project] 2020년_공무원연금공단 공공데이터 활용 대국민 아이디어 공모전(우수상) (0) | 2020.11.26 |
| [Project] 2019년_문화체육관광 빅데이터활용 아이디어 공모전(우수상) + 공모전 수상 팁 (0) | 2020.11.05 |
| [Project] 2019년_'땡땡거리'에 사는 사람들 : 서울시 철도 건널목 지도 제작(은상) (3) | 2020.11.03 |
| [Project] 2019년_검색어 트렌드를 활용해 알아보는 대한민국의 자살 징후 (2) | 2020.10.21 |
