일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 프로그래머스 파이썬
- 맥북
- leetcode
- 코로나19
- 우분투
- Git
- Docker
- 캐치카페
- AI 경진대회
- programmers
- 편스토랑
- 금융문자분석경진대회
- 자연어처리
- hackerrank
- ubuntu
- 프로그래머스
- PYTHON
- Kaggle
- 파이썬
- 백준
- ChatGPT
- dacon
- SW Expert Academy
- Real or Not? NLP with Disaster Tweets
- 편스토랑 우승상품
- 데이콘
- Baekjoon
- 더현대서울 맛집
- gs25
- github
- Today
- Total
목록
반응형
DACON/소설 작가 분류 AI 경진대회 (12)
솜씨좋은장씨
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 소설 작가 분류 AI 경진대회 16일차! 오늘은 DACON 코드공유 페이지에서 LA오빠님께서 공유해주신 코드에서 StarifiedKFold 를 참고하여 시도해보았습니다. 소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 그리고 전처리 과정에서 아직 남아있던 프랑스어를 조금 더 찾아서 영어로 번역하여 전처리를 진행하였습니다. sorted_keys = sorted(keys_with_length, key=lambda x : -x[1]) sorted_keys = [ key[0] for key in sorted_keys] sorted_k..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 애플 이벤트를 시청하며 진행했던 13일차! 오늘도 역시 NIPA에서 지원받은 V100 GPU 서버를 활용하여 도전해보았습니다. 13일차는 12일차에서 열심히 전처리 했던 데이터를 바탕으로 시도해보았습니다. 왜냐하면 12일차에서는 결과를 도출하고 다 제출하고 나서야 전처리한 데이터를 활용하지 않았다는 것을 깨달았기 때문입니다. 여러 모델 중에서 가장 validation loss 가 좋아보이는 세개를 골라서 제출해보았습니다. Bi-LSTM, Baseline model, LSTM 모델을 활용해 보았습니다. 예전에 금융 문자 분석 경진대회에서는 LSTM 모델이 성능이 괜찮게 나왔었는데 아직 전처리 ..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 11월 애플 이벤트를 기다리면서 진행한 12일차! 이번엔 베이스라인 코드에서 벗어나서! 새로운 전처리방식과 모델을 활용해보기로 했습니다. 그 과정에서 아래의 링크를 참고하였습니다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 이번 시도도 NIPA에서 지원해준 수시사용자 지원 V100 GPU 환경에서 실시하였습니다. 올 초 금융문자분석경진대회에서는 Colab을 활용하였어서 런타임에 엄청 고통 받았었는데 덕분에 정말 편하게 대회를 진행하는 것 같습니다. 지원해주셔서 정말 감사드립니다. import pandas as pd import numpy as np import ..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 소설 작가 분류 AI 경진대회 9일차! 9일차는 베이스라인 코드에서 좀 벗어나 다른 방법을 활용해보고자 했습니다. BERT와 같은 pre-trained 모델은 활용할 수 없지만 전처리 과정에서는 사전 학습을 사용해도 된다고 하여 Glove 임베딩을 활용하여 도전해보기로 했습니다. 방법은 아래의 위키독스에서 활용한 방법을 바탕으로 도전해보겠습니다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 대회 커버가 바뀌어 뭔가 새로운 대회를 참가하는 것 같은 느낌의 도전 8일차 입니다. 먼저 fasttext로 결과를 도출해보고자 열심히 시도해보았으나 제 시간 내에 validation_loss 값을 0.78 아래로 떨어지는 것을 확인하지 못하여 이번에도 아쉽지만 7일차에서 조금씩만 변형하여 도전해보았습니다. PorterStemmer로 어간추출 후 WordNetLemmatizer로 표제어 추출을 하여 나온 데이터를 바탕으로 시도해보았습니다. train_dataset = pd.read_csv("./train.csv") test_dataset = pd.read_csv("./test_x.csv") ..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 7일차! 7! 뭔가 행운이 찾아올 것 같은 기분이 들었던 7일차 도전의 날이었습니다. 오늘도 역시 aihub에서 지원받은 GPU서버 환경에서 진행하였습니다. 오늘은 생각보다 시간이 없어서 원래는 Glove 임베딩을 활용해서 결과를 내보려했지만 잠시 뒤로 미뤄두고 표제어추출도 활용해보고 학습데이터에서 validation 데이터를 비율을 줄여보기도하고 이것저것 여러 하이퍼 파라미터를 변경해보면서 시도해보았습니다. 첫번째 시도해 보았던 것은 앞의 전처리 과정은 6일차와 동일하고 가장 좋았던 모델에서 임베딩 차원만 128 -> 256 으로 변경하여 시도해보았습니다. 여러 시도 중에 가장 valida..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 소설 작가 분류 AI 경진대회 7일차! 7! 뭔가 기분좋아지는 숫자입니다. 이번 대회에서는 BERT와 같은 사전학습 모델 사용이 불가합니다. 그런데 전처리 과정에서는 사용을 해도 된다고하여 정보의 보고인 Kaggle로 향하여 Glove 임베딩을 활용한 노트북을 찾아 따라해보기로 하였습니다. 모든 개발은 aihub에서 지원 받은 GPU 서버 환경에서 진행하였습니다. 일반 수시 사용자에게도 아낌없이 지원해주셔서 정말 감사합니다. NLP using GloVe Embeddings(99.87% Accuracy) Explore and run machine learning code with Kaggle ..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 소설 작가 분류 AI 경진대회 6일차! 오늘도 퇴근 후 즐거운 DACON 도전의 시간이 다가왔습니다. 오늘은 전처리 방법에서 Stemmer를 LancasterStemmer 에서 Porterstemmer로 바꾸고 임베딩 차원을 16 -> 128로 늘렸습니다. import pandas as pd import re train_dataset = pd.read_csv("./train.csv") test_dataset = pd.read_csv("./test_x.csv") 먼저 데이터를 불러옵니다. from nltk.corpus import stopwords def alpha_num(text): retu..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 소설 작가 분류 AI 경진대회 5일차! 요즘 오랜만에 NLP 대회가 열려 퇴근 후가 즐거운 나날입니다. 오늘은 전처리 방법을 바꾸고 베이스라인 코드에있는 모델을 활용하여 결과를 도출해보았습니다. 모든 과정은 aihub에서 지원받은 GPU 환경에서 진행하였습니다. 먼저 첫 번째로 전처리 방식에서 아주 작은 변화를 주었습니다. 먼저 영어 대문자 소문자만 제거해주는 alpha_num 함수에 stopwords에 ' 이 포함되어있는 것들이 alpha_num을 거쳤을때 '이 삭제되지 않아 you've 같은 불용어가 제대로 제외되도록 \' 를 추가했습니다. def alpha_num(text): retur..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 소설 작가 분류 AI 경진대회 4일차! 오늘은 먼저 DACON 에서 제공해주는 베이스라인을 먼저 시도해보았습니다. 개발은 NIPA에서 지원받은 GPU 서버환경에서 진행하였습니다. 소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io import pandas as pd import warnings warnings.filterwarnings(action='ignore') import numpy as np import tensorflow as tf from tensorflow.keras.preprocessing.sequence impor..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io DACON에서 금융문자 분석 경진대회 이후 오랜만에 NLP대회가 열렸습니다. 이 글에서는 첫날, 두번째날, 세번째날 시도해본 내용을 적어보려합니다. 이 3일간에는 별다른 EDA 없이 그저 기존에 해보던 방법과 베이스라인을 참고하고 간단한 전처리만 활용하여 시도해보았습니다. 개발환경은 NIPA에서 지원받은 GPU서버를 활용하여 진행하였습니다. 먼저 첫 날! import pandas as pd train_dataset = pd.read_csv("./train.csv") test_dataset = pd.read_csv("./test_x.csv") 먼저 제공받은 학습데이터를 pandas를 활용하여 ..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 요즘 여러 사정으로 인하여 다른 공모전 참가도 제대로 못하고 결과물 제출도 하지 못하였습니다. 어느 정도 정리를 하고 둘러보던 중 DACON에서 드디어 NLP대회가 오픈하여 이번엔 그동안 여러 공모전을 도전하며 듣고 보고 해보았던 노하우를 녹여보고자 합니다. 데이터는 영어 데이터로 구성되어있습니다. 자연어처리에 관심 있는 분들은 도전해보셔도 좋을 것 같습니다. 상금으로는 100만원에 애플워치가 제공된다고 합니다. 공모전 진행은 NIPA에서 지원해주는 GPU를 지원받아 Ubuntu + V100 + TF2 환경에서 진행하였습니다. 비싼 GPU! 지원 받아 무료로 사용해보자! Ai Hub GPU ..