일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
- 편스토랑
- 프로그래머스 파이썬
- github
- 맥북
- hackerrank
- 코로나19
- 백준
- Kaggle
- ubuntu
- programmers
- 금융문자분석경진대회
- 파이썬
- 편스토랑 우승상품
- gs25
- Docker
- Real or Not? NLP with Disaster Tweets
- 자연어처리
- 데이콘
- ChatGPT
- leetcode
- Git
- AI 경진대회
- 우분투
- 프로그래머스
- 더현대서울 맛집
- 캐치카페
- dacon
- PYTHON
- SW Expert Academy
- Baekjoon
- Today
- Total
목록
반응형
금융문자분석경진대회 (6)
솜씨좋은장씨
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/b6C3iF/btqCcVBbkDb/XQkVKdjjZydwp95unWzG2K/img.png)
공덕에 있는 서울 창업허브에서 오디오 처리 교육을 마치고! 오늘은 저번 2월 6일 합정에서 진행하기로 했었다가 취소가 되어 너무너무너무너무너무나도 아쉬웠던! KB 금융문자분석경진대회 밋업을 다녀왔습니다. 취소가 되고 수상하신 팀이나 저보다 더 좋은 결과가 나왔던 분들은 도대체 어떤 모델을 사용했길래! 어떤 방법으로 전처리를 했길래! 100퍼센트에 가까운 모델을 만들었는지 너무나도 궁금했습니다. 자연어처리 관련 오픈채팅방, 페이스북, 7위로 대회를 마치신 김웅곤님이 하시는 BERT강의까지 정말 여기저기! 그 비결을 수소문하러 다녔었습니다. 그 결과 임베딩까지의 과정에서 n-gram 방법을 많이 사용하고 모델링에서는 주로 LSTM같은 딥러닝 모델 보다는 머신러닝 모델 중 앙상블 모델인 lightGBM 모델이..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/nmiC1/btqABR9094p/h2o5evyI3HSrUN0m7IVoz0/img.png)
첫번째 제출 (Google Colab -TPU)오늘은 형태소 분석기에서 morphs 메소드가아닌 nouns 메소드를 사용해보기로 했습니다.형태소 분석기는 Mecab 메소드는 nouns를 사용하여 전처리한 데이터를 학습시켜 보았습니다.model3 = Sequential() model3.add(Embedding(max_words, 100)) model3.add(LSTM(128)) model3.add(Dense(2, activation='sigmoid')) model3.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) history3 = model3.fit(X_train, y_train, epochs=2, batch_size..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/b52GLv/btqAv1LqHmd/BH1ckPPvwo7klBCxYwO7Tk/img.png)
오늘은 가장 좋았던 모델에서 하이퍼 파라미터를 바꾸어 시도해보았습니다. 1. Embedding 레이어에서 output_dim 만 100 -> 128로 변경 (Google Colab -TPU)model3 = Sequential() model3.add(Embedding(max_words, 128)) model3.add(LSTM(128)) model3.add(Dense(2, activation='sigmoid')) model3.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) history3 = model3.fit(X_train, y_train, epochs=2, batch_size=32, validation_split=0...
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/crQxCD/btqAt6lAc3f/DN7TGUGVKx497jdlJgLwMK/img.png)
첫번째 시도해본 모델 (Google Colab -GPU) ELMo를 활용하여보기로 하였습니다.import tensorflow_hub as hub import tensorflow as tf from keras import backend as K sess = tf.Session() K.set_session(sess) elmo = hub.Module("https://tfhub.dev/google/elmo/1", trainable=True) sess.run(tf.global_variables_initializer()) sess.run(tf.tables_initializer()) def ELMoEmbedding(x): return elmo(tf.squeeze(tf.cast(x, tf.string)), as_dic..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cggJEC/btqAuNxTJXc/9Js6MyXI0XwXWY31Yd4Kk0/img.png)
1. 아이디어형태소 분석기를 Okt에서 Mecab으로 바꾸어 토큰화 한 후 모델을 학습시켜 결과 확인 Mecab을 활용하여 토큰화하니 문자데이터의 최대 길이가 666으로 증가하였습니다.from keras.layers import Embedding, Dense, LSTM from keras.models import Sequential from keras.preprocessing.sequence import pad_sequences max_len = 666 # 전체 데이터의 길이를 666로 맞춘다 X_train = pad_sequences(X_train, maxlen=max_len) X_test = pad_sequences(X_test, maxlen=max_len) 모델링첫번째 시도해본 모델 (Google ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bcIfyh/btqAuygzl00/LVuezthZKyFdb5i4QpicH1/img.png)
1. 도전하게 된 계기 [대회] 14회 금융문자 분석 경진대회 dacon.io idEANS 팀원들과 함께했던 COMPAS 화성시 최적 시내버스 노선 제시 공모전을 잘 마무리하고 새로운 목표를 설정도 할겸 이번엔 멀티캠퍼스에서 자연어 처리를 들었던 내용을 살려 금융문자 분석 경진대회에 도전해보기로 했습니다. [대회] 14회 금융문자 분석 경진대회 - [Dacon Baseline] 초급자용 코드 /*! * * Twitter Bootstrap * */ /*! * Bootstrap v3.3.7 (http://getbootstrap.com) * Copyright 2011-2016 Twitter, Inc. * Licensed under MIT (https://github.com/twbs/bootstrap/blob/..