관리 메뉴

솜씨좋은장씨

DACON KB 금융문자분석 경진대회 밋업! 참여 후기! 본문

DACON/KB 금융문자 분석 경진대회

DACON KB 금융문자분석 경진대회 밋업! 참여 후기!

솜씨좋은장씨 2020. 2. 21. 23:49
728x90
반응형

공덕에 있는 서울 창업허브에서 오디오 처리 교육을 마치고!

 

오늘은 저번 2월 6일 합정에서 진행하기로 했었다가 취소가 되어 너무너무너무너무너무나도 아쉬웠던!

 

KB 금융문자분석경진대회 밋업을 다녀왔습니다.

 

취소가 되고 수상하신 팀이나 저보다 더 좋은 결과가 나왔던 분들은

 

도대체 어떤 모델을 사용했길래! 어떤 방법으로 전처리를 했길래!

 

100퍼센트에 가까운 모델을 만들었는지 너무나도 궁금했습니다.

 

자연어처리 관련 오픈채팅방, 페이스북, 7위로 대회를 마치신 김웅곤님이 하시는 BERT강의까지

 

정말 여기저기!

 

그 비결을 수소문하러 다녔었습니다.

 

그 결과 임베딩까지의 과정에서 n-gram 방법을 많이 사용하고

모델링에서는 주로 LSTM같은 딥러닝 모델 보다는 머신러닝 모델 중 앙상블 모델인 lightGBM 모델이

주로 사용됐다는 것을 어느정도는 파악할 수 있었습니다.

 

하지만!

세부적인 데이터 전처리 방식이나 모델링에서 고민했던 내용들에서는 알기 힘들었습니다.

 

기대를 가지고 공덕에서 여의도 위워크 8층의 데이콘 본사가 있는 곳으로 향했습니다.

 

데이콘은 여의도에 있는 wework 8층에 위치해 있었습니다.

 

생각보다 조금 일찍 도착하게되었습니다.

이런건 또 1등! 으로 도착!

 

festa!에서 신청한 분들 내역을 가져오셔서 체크하시는데

 

당연히 신청을 한줄 알고 있던 저는.... 이내 2월 6일 취소되었던 행사만 신청을 했던 것을 확인했습니다.

 

다행히 신청을 하지않아도 소속 이름을 적고 서명을 하면 참석할 수 있어서 하고 대기했습니다.

 

앉아서 오늘의 1일 1문제를 풀고있다보니 준비를 하시는 분과 이야기를 나누게 되었는데

 

이미 끝난 대회의 도전 후기에 댓글을 남겨주셨던 Dacon_jin님이셨습니다. 

 

댓글과 팁을 남겨주셨어서 감사했었습니다. 다른 대회도 도전해서 후기를 계속 남겨보려합니다.

 

점점 사람이 모이고 시작 전 데이콘 측에서 저녁식사를 못하고 오신 분들을 위해 준비해주신

 

피자를 맛있게 먹었습니다.

 

무려 도미노피자! 정말 맛있게 잘 먹었습니다.

 

오랜만에 멀티캠퍼스에서 같이 자연어 처리 교육을 들었던 분들도 뵐 수 있어서 정말 너무너무 반가웠습니다.

 

피자를 먹고 오랜만에 반갑게 인사를 하며 네트워킹하는 시간을 가지다가

 

19시 15분부터 본격적인 밋업행사가 진행되었습니다.

 

1. 개회

밋업을 시작하면서 앞으로 데이콘이 나아가려고하는 방향, 하고자 하는 것들에 대해서 알려주셨습니다.

현재 스터디 그룹 형식의 데이콘 서포터즈 1기를 뽑고있고

스타크래프트 게임데이터를 분석하는 대회를 월간 데이콘 3으로 열려고 한다고 하였습니다.

 

서포터즈는 스터디 그룹 형태로 진행되며 그 스터디 그룹을 이끌어가는 역할을 하게된다고 합니다.

서포터즈에 관심있는 분들은 지원해보셔도 좋을 것 같습니다.

 

또 모바일 버전 데이콘도 열심히 개발중이고

캐글(Kaggle)처럼 전 세계의 사람들이 참여할 수 있도록

글로벌 버전의 데이콘도 4월중에 오픈할 예정이라고 하였습니다.

 

그렇게 전세계의 사람들과 경쟁하는 대회가 되면 더 많은 아이디어를 볼 수 있을 것 같아 더 기대가 되는 것 같습니다.

 

2. 대회 리뷰

이번 대회는 최근 문제가 되고있는 보이스피싱, 스미싱 관련 범죄를 예방하기 위해

좀 더 좋은 스미싱 문자를 구별해내는 알고리즘을 개발해낼 수 있지 않을까 하는 좋은 취지에서 시작되었다고 합니다.

 

그 결과 정확도와 속도가 좋은 알고리즘을 발굴할 수 있었다고 하였습니다.

 

데이터는 KB 금융지주에서 제공받은 데이터와 KISA에서 제공받은 데이터에서

개인정보에 관한 내용을 비식별화 해서 제공해주었다고 하였습니다.

( 데이터에 대해서 연습용으로 보내달라고 하시는 분들이 많은데 개별적인 제공이 불가함을 알려드립니다.)

 

3. 수상자 발표

3위를 하신 신한금융지주스님 팀 부터 1위를 하신 스팸구이 팀까지 총 3팀의 발표를 들었습니다.

세팀 모두 기본적으로 LightGBM 모델을 사용하고

각각의 데이터 전처리 방식, EDA했던 과정, 모델을 최적화한 방법이 다 달랐습니다.

 

세부적인 내용은 개인적으로 공부하고 블로그에 포스팅은 하지 않으려고 합니다.

 

보면서 느꼈던 건

 

아직 공부할 건 정말 많구나!

 

라는 걸 많이 느꼈습니다.

 

일주일 동안 음성을 LSTM이나 CNN 같은 딥러닝을 활용해서 분류를 하기 위해 mfcc로 변환하는 과정을 배우며 

아... 자연어가 쉬운거구나 라고 생각했는데

아직 머신러닝, 딥러닝 분야에 공부할 분야가 무궁무진하다는 것을 많이 느꼈습니다.

 

가장 흥미로웠던 것은 LIME에 대한 내용과 Shap 그리고 Startified Sampling(층화추출)이었습니다.

 

 

Explain NLP models with LIME & SHAP

Interpretation for Text Classification

towardsdatascience.com

 

Stratified Sampling(층화추출법) 설명

정의 - 데이터의 편향 방지 + 편향된(잘못된) 모델 생성 방지 - 모집단의 특정 변수 비율에 맞추어 모집단을 쪼개어 해당 비율만큼 가지고 오는것(표본추출) = 비율을 맞춰줌 - 층 내는 동질하게, 층끼리는 이질..

nonmeyet.tistory.com

제가했던 EDA 방법이나 샘플링의 방법외에 정말 무궁무진한 방법이 있다는 것을 깨닫고 

앞으로의 다른 대회, 공부에서 적용해봐야겠다는 생각이 들었습니다.

 

지금하고있는 캐글 재난 트윗 대회 등 앞으로 적용해보면서 공부하려합니다.

 

4. 네트워킹

모든 발표가 끝나고 네트워킹을 할 수 있었습니다.

월간 데이콘을 기획할 때 직원분들의 관심사가 반영이 되서 기획이 될 수 도 있다는 것도 알게되었고 

원자력 발전소 대회의 데이터 로드하는 법과 제공된 데이터에 대해서 설명해주신 영상을 만들어 공유해주신

분도 만날 수 있었고 

금융문자분석 경진대회 10위 코드를 공유해 주셨던 euphoria 님도 만날 수 있었습니다.

그리고 데이콘 대표님은 제가 사는 곳 근처에 거주하고 계신다는 것도 알게 되었습니다.

앞으로 대회를 어떻게 진행하면 좋을지 여러 방식에 대해서 이런 방식이면 참여할 의향이 있는지 질문을 하시는 것을 보며 

정말 많은 고민을 하고 계시는 것을 느낄 수 있었습니다.

 

5. 후기

정말 궁금했던 부분들에 대해서 세부적으로 들을 수 있는 정말 좋은 기회였던 것 같습니다.

기존에 제가 알고있던 부분은 아직 세발의 피라는 것도 느낄 수 있었고

LIME과 같은 새로운 내용을 알 수 있어 더 좋았던 것 같습니다.

그리고 온라인 상으로 만났을때 나누면 한정되는 내용들을 직접 대면하여 이야기를 나누니 더 자세하게 질문하고

대화할 수 있는 시간이었어서 너무너무너무너무너무 좋았습니다.

얼른 스킬업을 해서 저도 언젠가 데이콘 밋업에서

제가 도전했던 내용들을 블로그 뿐만아니라 직접 발표를 하며 공유할 수 있는 사람이 되야겠다라는 생각이 들었습니다.

 

저녁식사를 위해 피자도 준비해주시고 이런 좋은 시간을 마련해주신 데이콘과

코로나 위험에도 와서 도전 후기와 노하우를 공유해주신 수상팀분들께 정말 감사드립니다.

 

언젠가 저도 상금을 타고 발표하는 날이 오기를!

 

읽어주셔서 감사합니다.

Comments