관리 메뉴

솜씨좋은장씨

Jigsaw Multilingual Toxic Comment Classification 도전! 본문

Kaggle/Jigsaw Multilingual Toxic Comment Classi

Jigsaw Multilingual Toxic Comment Classification 도전!

솜씨좋은장씨 2020. 3. 24. 15:40
728x90
반응형

 

Jigsaw Multilingual Toxic Comment Classification

Use TPUs to identify toxicity comments across multiple languages

www.kaggle.com

Kaggle에서 새로운 대회가 오픈하였습니다.

Jigsaw Multilingual Toxic Comment Classification 대회입니다.

여러 커뮤니티를 보니 그동안 여러번 오픈했던 대회인데 이번 대회의 특이한 점은

다국어를 지원하는 모델을 만드는 것과 TPU활용을 장려하는 점이 특이한 점인 것 같습니다.

 

학습으로 사용하는 데이터는 영어이고 

그 데이터로 학습한 모델로 맞춰야할 테스트 데이터는 포르투갈어, 러시아어, 터키어, 스페인어 등 이라고 합니다.

 

그동안 재난문자트윗 Real or Not? NLP with Disaster Tweets를 하며

대회의 개요도 제대로 보지않고 참가하고 캐글 노트북도 제대로 활용하지 못하여 많은 삽질을 했던 경험과

데이콘의 금융문자분석 경진대회 시 TPU를 할당해주지않고 사용했던것과 같은 수많은 삽질 경험을 바탕으로

이번 대회는 캐글 노트북을 사용하면서 어려웠던 점들을 하나하나 기록해두고

Multilingual 한 데이터를 다루는 모델을 만들어 보는 것을 경험해보는 것으로 도전해보려합니다.

 

그럼 시간나는대로 틈틈히 공부하고 도전하면서 기록을 남겨보도록 하겠습니다.

 

Comments