일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- leetcode
- 코로나19
- 편스토랑
- ChatGPT
- Docker
- Baekjoon
- 맥북
- gs25
- 더현대서울 맛집
- ubuntu
- 편스토랑 우승상품
- 캐치카페
- Kaggle
- 우분투
- AI 경진대회
- github
- Real or Not? NLP with Disaster Tweets
- Git
- 프로그래머스 파이썬
- hackerrank
- dacon
- programmers
- SW Expert Academy
- 데이콘
- 자연어처리
- 프로그래머스
- PYTHON
- 백준
- 파이썬
- 금융문자분석경진대회
- Today
- Total
목록
반응형
DACON NLP 대회 (4)
솜씨좋은장씨
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 소설 작가 분류 AI 경진대회 16일차! 오늘은 DACON 코드공유 페이지에서 LA오빠님께서 공유해주신 코드에서 StarifiedKFold 를 참고하여 시도해보았습니다. 소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 그리고 전처리 과정에서 아직 남아있던 프랑스어를 조금 더 찾아서 영어로 번역하여 전처리를 진행하였습니다. sorted_keys = sorted(keys_with_length, key=lambda x : -x[1]) sorted_keys = [ key[0] for key in sorted_keys] sorted_k..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 11월 애플 이벤트를 기다리면서 진행한 12일차! 이번엔 베이스라인 코드에서 벗어나서! 새로운 전처리방식과 모델을 활용해보기로 했습니다. 그 과정에서 아래의 링크를 참고하였습니다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 이번 시도도 NIPA에서 지원해준 수시사용자 지원 V100 GPU 환경에서 실시하였습니다. 올 초 금융문자분석경진대회에서는 Colab을 활용하였어서 런타임에 엄청 고통 받았었는데 덕분에 정말 편하게 대회를 진행하는 것 같습니다. 지원해주셔서 정말 감사드립니다. import pandas as pd import numpy as np import ..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 7일차! 7! 뭔가 행운이 찾아올 것 같은 기분이 들었던 7일차 도전의 날이었습니다. 오늘도 역시 aihub에서 지원받은 GPU서버 환경에서 진행하였습니다. 오늘은 생각보다 시간이 없어서 원래는 Glove 임베딩을 활용해서 결과를 내보려했지만 잠시 뒤로 미뤄두고 표제어추출도 활용해보고 학습데이터에서 validation 데이터를 비율을 줄여보기도하고 이것저것 여러 하이퍼 파라미터를 변경해보면서 시도해보았습니다. 첫번째 시도해 보았던 것은 앞의 전처리 과정은 6일차와 동일하고 가장 좋았던 모델에서 임베딩 차원만 128 -> 256 으로 변경하여 시도해보았습니다. 여러 시도 중에 가장 valida..
소설 작가 분류 AI 경진대회 출처 : DACON - Data Science Competition dacon.io 소설 작가 분류 AI 경진대회 6일차! 오늘도 퇴근 후 즐거운 DACON 도전의 시간이 다가왔습니다. 오늘은 전처리 방법에서 Stemmer를 LancasterStemmer 에서 Porterstemmer로 바꾸고 임베딩 차원을 16 -> 128로 늘렸습니다. import pandas as pd import re train_dataset = pd.read_csv("./train.csv") test_dataset = pd.read_csv("./test_x.csv") 먼저 데이터를 불러옵니다. from nltk.corpus import stopwords def alpha_num(text): retu..