일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- PYTHON
- hackerrank
- ubuntu
- 편스토랑 우승상품
- leetcode
- 프로그래머스
- AI 경진대회
- 금융문자분석경진대회
- 파이썬
- 더현대서울 맛집
- 백준
- Baekjoon
- SW Expert Academy
- github
- programmers
- Real or Not? NLP with Disaster Tweets
- 맥북
- 자연어처리
- gs25
- dacon
- 우분투
- Docker
- ChatGPT
- Git
- 데이콘
- 캐치카페
- 편스토랑
- 코로나19
- 프로그래머스 파이썬
- Kaggle
- Today
- Total
목록
반응형
자연어처리 (10)
솜씨좋은장씨
2020.11.04 - [머신러닝 | 딥러닝/자연어처리] - Google Colab에서 mecab-ko-dic 사용자 사전 추가하기! Google Colab에서 mecab-ko-dic 사용자 사전 추가하기! from konlpy.tag import Mecab mecab = Mecab() print(mecab.pos("솜씨좋은장씨의 개발블로그")) 최근 Google Colab에서 mecab에 사용자 사전을 추가하는 방법에 대해서 문의 하시는 분이 많기도 하셨고 저도 mecab에서 somjang.tistory.com 이전에 작성하였던 Colab 에서 mecab-ko-dic 사용자 사전 추가 방법이 이런 저런 오류들이 많이 발생하여 여러 종류의 질문이 많이 들어왔었습니다. 간만에 자세하게 이것저것 테스트해볼 ..
[문자] 청와대 청원 : 청원의 주제가 무엇일까? 출처 : DACON - Data Science Competition dacon.io 그동안 Elasticsearch를 활용하여 검색 시스템을 개발하면서 자연어처리에 대해서 공부를 좀 소홀히 한 느낌이있어 다시 기존에 공부했던 내용을 리마인드 시킬 겸! 데이콘에서 교육용으로 열려있는 청와대 청원 분류 문제를 풀어보기로 했습니다. 이 문제는 청와대 청원이 0 : 인권 / 성평등 | 1 : 문화 / 예술 / 체육 / 언론 | 2 : 육아 / 교육 이 세가지 중 어떤 카테고리에 속하는지 분류를 하면되는 문제입니다. 모든 과정은 Google Colab의 GPU 환경에서 진행하였습니다. 먼저 pandas의 read_csv로 데이터를 불러와 각 카테고리마다 데이터가 ..
2020년! 프로그래머스에서 자연어처리 여러 회사들과 연계하여 자연어처리 개발자를 채용하는 Dev-Matching 챌린지가 열렸습니다. 마침 멀티캠퍼스 자연어처리 과정을 마치고 쿠팡 상차 아르바이트를 하며 취업을 준비하고 있던 저에게 열정을 불태울 만한 기회가 생겼습니다. 이 Dev-Matching은 11개 회사 중에서 5개 회사 서류 접수 -> 사전 과제 -> 코딩테스트 ( 과제 통과 인원들 ) -> 지원한 회사 중 합격한 회사 면접 순으로 일정이 진행되었습니다. 먼저 서류를 제출하고 과제를 열심히 기다렸습니다. 2월 1일! 드디어 과제가 오픈되었습니다. 과제의 내용은 해시코드라는 개발 관련 질문과 답변이 올라오는 홈페이지의 질문 글을 자동으로 분류할 수 있는 모델을 만드는 것이었습니다. 이 글이 5개..
Kaggle Competition 도전 1일차! DACON에서 진행했던 원자력발전소 상태판단 알고리즘 경진대회도 끝났겠다 한국인공지능 아카데미 BERT 실용교육에서 알게 된 Real or Not? NLP with Disaster Tweets! Kaggle Competition을 도전해보기로 했습니다. 이번에는 하루 5번 제출이 가능하고 3월 23일까지 기간이 넉넉하게 있기에 어떠한 모델들을 사용해 볼지 어떤 데이터 전처리를 진행한 뒤에 실시해볼지 고민해서 계획 후에 도전하며 모델의 성능을 높여나가는 과정을 기록해보려합니다. 오늘은 처음으로 도전하는 날이고 기존에 알고있던 nltk를 활용한 토큰화, stemming, Keras 모델을 활용하여 시도해보았습니다. 진행 환경은 Google Colab의 TPU ..
Real or Not? NLP with Disaster Tweets Predict which Tweets are about real disasters and which ones are not www.kaggle.com DACON 에서 진행했던 KB 금융문자분석 경진대회도 끝나고 Programmers에서 진행했던 2020 Dev-Matching 자연어처리 개발자 과제도 끝나고 자연어처리 관련 Competition이 어디 없나 찾던 중 지난 BERT 교육에서 알게된 Kaggle Competition 중 하나인 Real or Not? NLP with Disaster Tweets Competition에 도전해보기로 했습니다. 재난 문자인지 아닌지! 영어로 되어있는 트윗을 이진분류하는 Competition 입니다..
1~3일차에는 기본적인 파이썬을 활용한 자연어처리와 어텐션 모델과 GRU모델을 활용한 간단한 분류 실습과 BERT를 사용한 SQuAD, KorQuAD 실습을 했다면 4~5일차는 3일차에 구성퇸 팀원들끼리 각팀의 아이디어를 가지고 실습해보았던 BERT를 활용하여 구현해보고 발표하는 시간을 가졌습니다. 다들 짧은 시간안에 다양한 아이디어를 BERT를 활용하여 구성하는 시간이었습니다. 팀은 총 6개의 팀으로 구성되었으나 아쉽게도 마지막날 한 팀이 사정상 참석을 하지못하여 최종 구현 및 발표는 5개의 팀이 발표를 하게 되었습니다. 아이디어는 - BERT와 재난 트윗 - BERT 를 활용하여 쇼핑몰 리뷰 평점 예측하기 - BERT를 이용한 키워드 추출 - KoBERT를 이용한 한국어 모델 만들기 - 게시판 글 카..
평소와 같이 쉬면서 평화롭게 페이스북을 하던 중 한국인공지능아카데미에서 BERT에 관련된 교육을 한다고하여 평소에 말로만 이야기하고 한번도 사용해보지는 못한 BERT에 대해서 배울 수 있는 좋은 기회라고 생각하여 신청해보았습니다. 그리고 제가 지난 한 달 동안 도전해보았던 DACON 금융문자분석 경진대회에서 7위로 장려상을 수상하신 통계청의 김웅곤님이 교육을 하신다고 하여 노하우도 들어보고 싶고 현재 도전하고 있는 프로그래머스의 Dev-Matching 도전에도 도움이 될 만한 정보를 얻을 수 있을까 하여 더더욱 수강하고싶었습니다. 신청 후! 교육대상 확정 메일이 오게되었고 교육을 들을 수 있었습니다. 교육은 공덕에 있는 서울창업허브 9층에 있는 세미나실에서 진행되었습니다. 서울 창업허브는 말로만 듣고 처..
장동현(Donghyun Jang) somjang@kakao.com 연락이 필요하면 메일로 부탁드립니다! Sejong University - Computer Engineering GitHub : https://github.com/SOMJANG 2017년 2월 세종대학교 컴퓨터공학과 졸업 2017년 3월 1일 ~ 2019년 6월 29일 제 30 기계화 보병사단 정보통신대대 다중무선소대장/본부중대장 - 중위 전역 2019년 7월29일 ~ 2019년 11월 29일 멀티캠퍼스 - 혁신성장 청년인재 집중양성 교육 이수 ( 인공지능 자연어처리 기업데이터 분석 C반 ) - 공로상 2019년 12월 2일 MBN 빅데이터 아이디어 경진대회 우수상(웰컴에프엔디) 수상 - 프랜차이즈 정보제공 플랫폼 2019년 12월 20일 ..
11월 29일, 드디어 지난 7월 29일에 시작하여 장장 4개월, 100일, 800시간의 여정을 지나 인공지능 자연어처리 기업데이터 분석 C반 교육을 수료하였습니다. 오늘은 이 국비지원 교육을 어떻게 수강하게 됐었는지 하면서 어떤걸 해보았는지 적어보려합니다. 1. 교육 신청 2년 4개월의 군생활이 끝나고 무얼 해야할지 모르고 방황하던 지난 7월! 같이 전역한 군 동기가 전에 함께 신청하려고 했다가 아직 장교로 군 생활중이어서 지원이 불가했던 멀티캠퍼스라는 교육기관에서 다시 새로운 국비지원 교육이 열렸고 본인도 면접을 보고 왔다며 저에게도 신청해보라고 하여 신청을 하고 면접을 보았습니다. 2. 면접 면접은 역삼동에 있는 멀티캠퍼스 건물 16층에서 진행되었습니다. 복장은 검은색 슬랙스에 셔츠에 운동화를 신고..
1. 이 주제를 선정하게 된 계기 개인프로젝트로 어떤 것을 해볼까 고민하면서 처음에는 영화를 추천해주는 챗봇을 만들어 보려고 했다가 더 공부를하고 만들기로 하고 하루라는 짧은 시간안에 구현해볼 수 있는 다른 주제가 무엇이 있나 찾던 중, 제가 평소에 자주 이용하는 왓챠라는 페이지에서 제가 봤던 영화들 목록과 평점과 같은 데이터를 가지고 새로운 영화가 나왔을 때 내가 시청하고 나서 어떤 점수를 부여할 것인지 예측해주는 시스템이 떠올랐습니다. 제가 왓챠에 제공하는 데이터는 제가 봤던 영화의 목록과 그 영화에 부여하는 평점 정보 뿐인데 어떻게 아직 개봉하지 않은 영화들의 평점을 예측해서 보여주는가 고민을 해보았습니다. 고민하다가 떠올랐던 것이 제가 봤다고 한 영화의 줄거리와 그 영화에 부여된 평점, 그리고 장..