728x90

안녕하십니까, 간토끼입니다.

 

이번 포스팅에서는 2020년에 수상한 울산항만공사와 UNIST 스마트항만물류지원센터의 2020 해양수산 빅데이터 분석 경진대회 수상 경험을 다뤄보겠습니다.

 


이번 공모전 또한 이전에 소개하였던 데이터 크리에이터 캠프와 마찬가지로 온라인 해커톤 방식으로 진행되었습니다.

2021/01/29 - [Records/Project] - [Project] 2020년_데이터 크리에이터 캠프 공모전(대상) + 수상 팁

 

[Project] 2020년_데이터 크리에이터 캠프 공모전(대상) + 수상 팁

안녕하십니까, 간토끼입니다. 이번 포스팅에서는 2020년에 수상한 한국정보화진흥원의 2020 데이터 크리에이터 캠프 공모전 수상 경험을 다뤄보겠습니다. 이번 공모전은 예선부터 본선까지 해커

datalabbit.tistory.com

다만 3시간 동안만 진행됐던 것과 다르게 이번 공모전은 약 4일간의 시간동안 진행되었습니다.

그러다보니 힘도 빠지고... 이래저래 많이 얻어간 것보다도 부족한 점을 제대로 직면할 수 있었던 좋은 경험이었습니다.

 

1. 대회 소개

간단하게 대회 소개를 하자면 다음과 같습니다.

- 해양수산부, 과학기술정보통신부가 주최하고 울산항만공사와 울산과학기술원(UNIST) 스마트항만물류지원센터가 주관하는 대회

- Big Data Analysis에 관심있는 대학생(3-4학년)을 대상으로 온라인 해커톤 진행

- 대회 전 비즈니스 분석 및 대회 데이터 및 도메인(해양물류, 해양교통, 수출입물류연계)에 대한 사전 교육 후 4일간 온라인 해커톤 진행

 

울산항만공사와 스마트항만물류지원센터 등 "항만"에 관한 기관이 주관하는 만큼, 해양수산 분야에 한정되어 진행되었습니다.

이 대회의 특별한 점은 신청할 땐 개별 신청으로, 1차적으로 서류 전형을 통해 40명의 참가자를 선발합니다.

이후 40명을 4인 1개조로 랜덤 편성하여, 10개의 조로 일주일간 프로젝트를 진행하게 됩니다.

 

저희 팀은 UNIST, 중앙대학교, 국민대학교, 그리고 제가 속한 서울시립대학교 이상 4개의 학교 재학생으로 이루어졌는데요.

3명은 데이터 분석에, 1명은 물류학에 관심이 있다는 점에서 적절한 조합이라고 생각했습니다.

 

사실 저는 해양수산, 수출입물류, 해양교통 등 이쪽 분야에 대해서는 전혀 알지 못합니다.

(도움이 될진 모르겠지만 경제학부 전공 수업 중 '국제무역론' 수업도 듣지 않아 무역에 대한 이해가 전무하였고요 ^^;

사실 데이터가 무역보단 물류에 훨씬 더 가까웠습니다.)

 

그럼에도 이 대회에 참여한 것은, 제가 생각했을 때 '데이터 사이언티스트', 혹은 '데이터 분석가'는 어느 데이터를 만나든 본인의 스킬을 바탕으로 기업이 직면한 문제를 해결할 수 있어야 한다고 생각했기 때문입니다.

그래서 낯선 데이터에도 당황하지 않고 문제를 해결하려는 태도를 기르는 것이 중요하다고 판단했으며, 뭐 어쨌든 다양한 도메인을 경험해보는 것도 큰 도움이 되겠다 싶었습니다.

그리고 학부를 마무리하는데 좀 더 상을 받고 마무리하고자 했던 생각도 컸고요.

물론 기말고사 직전에 대회가 마무리되어 시험 공부는 생각보다 많이 하지 못했습니다 ^^;

 

사실 데이터 분석 스킬도 중요하지만, 무엇보다 중요한 것은 우리가 다루는 데이터에 대한 이해, 즉 도메인의 이해라는 것을 절실히... 깨달았습니다.

아마 국제물류학을 전공하시는 팀원 분이 아니었다면 저희 조는 절대 수출입물류연계 부문 1등을 하지 못했을 겁니다.

 

아! 저희 팀은 '수출입물류연계' 분야의 주제를 선택하였습니다.

그 이유는 국제물류학을 전공하지만 데이터 분석은 전혀 모르는 팀원분도 함께 참여할 수 있고, 주제 자체가 제일 흥미롭고 접근 가능할 것이라고 판단했기 때문입니다.

물론 이런 판단은 시작한지 하루도 되지 않아 잘못된 판단이라는 것을 데이터를 보고 깨달았습니다 ^^;

 

이 대회의 특징은 각 주제에 해당하는 기관이 있는데, 기관에서 보유한 사내 데이터를 이용하여,

기관이 직면한 비즈니스 문제를 해결하는 것이었습니다.

수출입물류연계 분야에서는 '트레드링스'라는 기업이 제시한 데이터와 문제를 해결하는 것이 핵심이었습니다.

 

데이터를 절대! 공개하면 안 돼서 자세히는 못 다루지만, 유튜브에 발표 영상이 있으니 이를 첨부하겠습니다 ㅎㅎ

(사실 설명하기 귀찮아서...)

 


 

2. 분석 과정

궁금하신 분은 첨부한 영상을 참고하시기 바랍니다.

저희 조가 해결해야할 문제는 "선박 예상 입항 일시로 실제 입항 일시와 작업시간을 예상하고, 컨테이너 수급 불균형 문제를 해소하라" 였습니다.

 

 

그래서 문제를 해결한 과정은 위 영상을 참고하시고... 프로젝트를 하면서 느낀 점 위주로 서술하겠습니다.


(1) R이든 파이썬이든 특정 언어 하나만큼은 확실하게 잡고 가자.

정말 뼈저리게 느낀 문제점이었습니다.

A 상황에서는 R밖에 쓰는 법을 모르고, B 상황에서는 파이썬밖에 대처하는 방법을 모르고...

계속 왔다 갔다 하니까 능률도 떨어지고, 각 언어에서 호환성도 떨어져 데이터가 망가지는 악순환을 겪었습니다.

 

개인적으로 데이터 핸들링은 R에서 Tidyverse를 숙지하여 완벽하게(?) 전처리 및 EDA를 끝내고,

깔끔하게 파이썬에서 사이킷런을 이용해 모델링을 하는 게 나은 것 같습니다.

 

Pandas보다는 Tidyverse가 나은 것 같은데... 개인적으로 제가 판다스에 약합니다.

이것도 보완해야 하는 문제겠지요... 하여튼 데이터 핸들링에서 정말 많이 부족하다는 것을 느꼈습니다.

같은 팀원분이 파이썬 고수여서 꽤나 얹혀갔던 ... 민폐를 끼쳤습니다. ㅠㅠ

 

 

(2) Feature Engineering과 EDA를 피하지 말자.

이론적인 기초가 많이 부실하다고 느꼈습니다.

나름 모델링에 자신이 있다고 생각했는데, 데이터가 너무 어려웠습니다.

Feature 수는 생각보다 적었으며, Feature와 Target 간 상관성이 매우 낮아 예측력을 높이기 어려웠습니다.

 

그래서 효과적인 EDA를 바탕으로 합리적으로 Feature를 건드렸어야 했는데, 그렇지 못했습니다.

평소 EDA가 약하다고는 생각했지만 그러한 생각을 직접 경험해보니 앞으로는 피하지 말고 더욱 노력해야겠다고 생각했습니다.

마찬가지로 ggplot을 확실히 하든, matplotlib이든 seaborn이든 하나라도 확실히 해야겠다고 생각했습니다.

 

그리고 평소 다루던 것보다 어려운 데이터라 그런지 Feature Engineering을 거의 못했습니다.

정말 부끄러웠습니다...

 

 

(3) 통계학 이론과 더불어 기계학습 알고리즘을 정확히 숙지하자.

Feature Engineering이나 EDA는 자신없어도 모델링은 자신있다고 생각했는데 큰 오산이었습니다.

모델링마저도 못했습니다.

개인적으로 Gradient Boosting 계열의 다양한 알고리즘을 정확히 숙지할 필요가 있다고 느꼈습니다.

특히 LightGBM... 그리고 Time Series Data의 특성을 고려한 LSTM이나 GRU 등 RNN 기반의 딥러닝 알고리즘도 제대로 숙지할 필요가 있다고 판단했습니다.

 

LightGBM은 꼭 제대로 잡고 가서 다음 공모전 땐 아낌없이 사용해주겠어...

 

그래도 파이썬 고수 팀원분과 국제물류학 전문가 팀원 등 잘하시는 분들이 많아서 그런지 많은 도움을 받을 수 있었습니다.

나름 시험 직전까지 고생한 덕분인지 기대도 안했던 수출입물류연계 부문 1위(최우수상)을 할 수 있었습니다.

상금도 무려 200만원입니다. ㅎㅎ

이 자리를 빌려 고생한 팀원분들께 박수를...

 

 

데이터 분석뿐만 아니라 물류 분야에도 새로운 지식을 얻어갈 수 있었던 좋은 기회였습니다.

그리고 학부 마지막 프로젝트인 만큼, 제가 앞으로 무엇을 보완해야할지 제 한계를 여실히 보여준 좋은 계기가 되었습니다.

 

감사합니다.

잘 읽으셨다면 게시글 하단에 ♡(좋아요) 눌러주시면 감사하겠습니다 :)

(구독이면 더욱 좋습니다 ^_^)

 

 

 

 


- 간토끼(DataLabbit)

- University of Seoul

- Economics & Data Science

728x90

+ Recent posts