일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 자연어처리
- hackerrank
- ChatGPT
- 편스토랑 우승상품
- ubuntu
- 캐치카페
- 편스토랑
- gs25
- leetcode
- 금융문자분석경진대회
- 더현대서울 맛집
- 백준
- 프로그래머스
- Baekjoon
- SW Expert Academy
- PYTHON
- Git
- AI 경진대회
- programmers
- 프로그래머스 파이썬
- 파이썬
- 우분투
- github
- 데이콘
- dacon
- Docker
- Real or Not? NLP with Disaster Tweets
- 맥북
- Kaggle
- 코로나19
- Today
- Total
목록
반응형
DACON/KB 금융문자 분석 경진대회 (7)
솜씨좋은장씨
공덕에 있는 서울 창업허브에서 오디오 처리 교육을 마치고! 오늘은 저번 2월 6일 합정에서 진행하기로 했었다가 취소가 되어 너무너무너무너무너무나도 아쉬웠던! KB 금융문자분석경진대회 밋업을 다녀왔습니다. 취소가 되고 수상하신 팀이나 저보다 더 좋은 결과가 나왔던 분들은 도대체 어떤 모델을 사용했길래! 어떤 방법으로 전처리를 했길래! 100퍼센트에 가까운 모델을 만들었는지 너무나도 궁금했습니다. 자연어처리 관련 오픈채팅방, 페이스북, 7위로 대회를 마치신 김웅곤님이 하시는 BERT강의까지 정말 여기저기! 그 비결을 수소문하러 다녔었습니다. 그 결과 임베딩까지의 과정에서 n-gram 방법을 많이 사용하고 모델링에서는 주로 LSTM같은 딥러닝 모델 보다는 머신러닝 모델 중 앙상블 모델인 lightGBM 모델이..
첫번째 제출 (Google Colab -TPU)오늘은 형태소 분석기에서 morphs 메소드가아닌 nouns 메소드를 사용해보기로 했습니다.형태소 분석기는 Mecab 메소드는 nouns를 사용하여 전처리한 데이터를 학습시켜 보았습니다.model3 = Sequential() model3.add(Embedding(max_words, 100)) model3.add(LSTM(128)) model3.add(Dense(2, activation='sigmoid')) model3.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) history3 = model3.fit(X_train, y_train, epochs=2, batch_size..
가장 먼저 Okt 형태소 분석기를 활용하여 토큰화 시 stem항목을 True에서 False로 바꾸어 만든 학습데이터셋으로 학습을 시켜 보았습니다.from tqdm import tqdm X_train = [] for i in range(len(train_data['clear_text2'])): temp_X = [] temp_X = okt.morphs(train_data['clear_text2'].iloc[i], stem=False) # 토큰화 temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거 X_train.append(temp_X) 첫번째 제출 모델 (Google Colab -TPU)model4 = Sequential() model4..
오늘은 가장 좋았던 모델에서 하이퍼 파라미터를 바꾸어 시도해보았습니다. 1. Embedding 레이어에서 output_dim 만 100 -> 128로 변경 (Google Colab -TPU)model3 = Sequential() model3.add(Embedding(max_words, 128)) model3.add(LSTM(128)) model3.add(Dense(2, activation='sigmoid')) model3.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) history3 = model3.fit(X_train, y_train, epochs=2, batch_size=32, validation_split=0...
첫번째 시도해본 모델 (Google Colab -GPU) ELMo를 활용하여보기로 하였습니다.import tensorflow_hub as hub import tensorflow as tf from keras import backend as K sess = tf.Session() K.set_session(sess) elmo = hub.Module("https://tfhub.dev/google/elmo/1", trainable=True) sess.run(tf.global_variables_initializer()) sess.run(tf.tables_initializer()) def ELMoEmbedding(x): return elmo(tf.squeeze(tf.cast(x, tf.string)), as_dic..
1. 아이디어형태소 분석기를 Okt에서 Mecab으로 바꾸어 토큰화 한 후 모델을 학습시켜 결과 확인 Mecab을 활용하여 토큰화하니 문자데이터의 최대 길이가 666으로 증가하였습니다.from keras.layers import Embedding, Dense, LSTM from keras.models import Sequential from keras.preprocessing.sequence import pad_sequences max_len = 666 # 전체 데이터의 길이를 666로 맞춘다 X_train = pad_sequences(X_train, maxlen=max_len) X_test = pad_sequences(X_test, maxlen=max_len) 모델링첫번째 시도해본 모델 (Google ..
1. 도전하게 된 계기 [대회] 14회 금융문자 분석 경진대회 dacon.io idEANS 팀원들과 함께했던 COMPAS 화성시 최적 시내버스 노선 제시 공모전을 잘 마무리하고 새로운 목표를 설정도 할겸 이번엔 멀티캠퍼스에서 자연어 처리를 들었던 내용을 살려 금융문자 분석 경진대회에 도전해보기로 했습니다. [대회] 14회 금융문자 분석 경진대회 - [Dacon Baseline] 초급자용 코드 /*! * * Twitter Bootstrap * */ /*! * Bootstrap v3.3.7 (http://getbootstrap.com) * Copyright 2011-2016 Twitter, Inc. * Licensed under MIT (https://github.com/twbs/bootstrap/blob/..