일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 자연어처리
- 데이콘 소설
- 캐치카페
- Real or Not? NLP with Disaster Tweets
- 우분투
- 데이콘
- selenium
- leetcode
- ubuntu
- 캐글
- Kaggle
- hackerrank
- 백준
- PYTHON
- dacon
- windows
- 인공지능 공모전
- Git
- 파이썬
- 캐치
- catch
- Keras
- programmers
- Compas
- SW Expert Academy
- 금융문자분석경진대회
- Baekjoon
- 프로그래머스
- NLP 대회
- AI 경진대회
- Today
- 1,010
- Total
- 441,434
솜씨좋은장씨
Google Colab에서 Mecab-ko-dic 쉽게 사용하기 본문
요즘 멀티캠퍼스에서 자연어처리에 대한 교육을 받으며 사용했던 은전한닢 프로젝트 라이브러리인 Mecab-ko-dic을
Google Colab에서 간단한 몇가지 명령어를 통하여 설치하고 사용할 수 있도록 Shell Script를 작성해 보았습니다.
Google Colab은 외부라이브러리의 영구적인 설치가 어려워 항상 다시 설치해주어야하여 쉽게 설치해보고자 만들어 보았습니다.
아이디어를 주신 복종순 강사님께 감사드립니다.
처음 만들어보는거라 Shell Script라 많이 미숙합니다. 보시고 부족한 점이나 수정해야할 점 들을 가감없이 알려주시면 감사하겠습니다.
Shell Script실행 시
mecab-0.996-ko-0.9.2
mecab-ko-dic-2.1.1-20180720
가 설치됩니다.
라이브러리에 대한 자세한 내용은 아래의 링크에서 볼 수 있습니다.
Bitbucket
bitbucket.org
Shell Script는 아래의 제 github에 올려두어 언제든 git clone명령어로 접근이 가능합니다.
SOMJANG/Mecab-ko-for-Google-Colab
Use Mecab Library(NLP Library) in Google Colab. Contribute to SOMJANG/Mecab-ko-for-Google-Colab development by creating an account on GitHub.
github.com
자세한 사용 방법은 아래와 같습니다.
1. git clone으로 저장소 가져오기
위의 링크로 들어가 Clone or download 버튼을 눌러 주소를 복사합니다.
! git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
명령어를 통해 저장소를 복제해 옵니다.
가져온 저장소는
Mecab-ko-for-Google-Colab 디렉터리로 가져와져 있는 것을 볼 수 있습니다.
cd Mecab-ko-for-Google-Colab
해당 디렉토리로 이동하여
! bash install_mecab-ko_on_colab190912.sh
shell Script파일을 실행하여 줍니다.
3~4분정도의 시간이 지나면 설치가 완료됩니다. (네트워크 상태에 따라 조금씩 다를 수 있습니다.)
from konlpy.tag import Mecab
mecab = Mecab()
text = u"""이제 구글 코랩에서 Mecab-ko라이브러리 사용이 가능합니다. 읽어주셔서 감사합니다."""
nouns = mecab.nouns(text)
print(nouns)
설치 후 위와 같이 import해서 사용하면됩니다!
읽어주셔서 감사합니다.
활용사례
금융문자 분석 경진대회 Baseline Code
데이콘 금융문자 분석 기본 제공 초급자 코드를 보다보니 어디서 많이 봤던 코드가 있어보니 익숙한 주소가 보였습니다.
Wikidocs Pytorch로 시작하는 딥러닝 입문
위키독스
온라인 책을 제작 공유하는 플랫폼 서비스
wikidocs.net
부족하지만 다들 잘 활용해주셔서 감사합니다!
'머신러닝 & 딥러닝 > 자연어처리' 카테고리의 다른 글
Google Colab에서 mecab-ko-dic 사용자 사전 추가하기! (10) | 2020.11.04 |
---|---|
Ubuntu에서 Khaiii 설치하기 (0) | 2020.09.10 |
Windows 에서 Mecab ( mecab 기반 한국어 형태소 분석기 ) 설치하는 방법 (4) | 2020.09.07 |
Google Colab에서 Mecab-ko-dic 쉽게 사용하기 (21) | 2019.09.12 |
Ubuntu 18.04 LTS에 mecab-ko-dic 설치하기 (5) | 2019.09.12 |
Ubuntu에서 Mecab-ko 사용을 위한 개발환경 설정 정리 (2) | 2019.09.08 |
-
ㅁㅇ4 2020.02.08 15:25 똑같으 따라했는데 여전히 인스턴스 생성 시 `Exception: Install MeCab in order to use it: http://konlpy.org/en/latest/install/`가 발생하네요... ㅠㅠ
-
사용자 솜씨좋은장씨 2020.02.08 15:38 신고 혹시 해당 코랩 코드 링크 공유해주실 수 있을까요
-
사용자 솜씨좋은장씨 2020.02.09 18:07 신고 관심가지고 활용해주셔서 감사합니다. 혹시 해결 하셨나요? 만약 해결이안되셨다면 github issue에 올려주시거나 somjang@kakao.com으로 해당 화면 캡쳐해서 보여주시면 감사하겠습니다!
-
랑뀨 2020.03.05 16:51 저도 똑같이 따라했는데 위에분이랑 같은 오류가 뜨네여 ㅠㅜ
-
사용자 솜씨좋은장씨 2020.03.05 16:57 신고 혹시 해당 colab파일 링크 공유해주실스 있을까요
-
사용자 솜씨좋은장씨 2020.03.06 05:07 신고 somjang@kakao.com으로 메일주시거나
github에 issue로 더 자세한 내용을 올려주시면 자세하게 답변드리겠습니다! 감사합니다! -
특허청 2020.04.02 15:46 잘되네요 감사합니다~
-
사용자 솜씨좋은장씨 2020.04.02 19:19 신고 감사합니다~
-
사용자 2020.04.06 14:03 위의 코드 잘 사용했습니다. 감사합니다.
혹시 colab에서 사용자 사전을 추가해서 사용해보셨나요?? 사용해보셨다면 어떻게 하셨는지 공유 부탁드려요..! 감사합니다. -
사용자 솜씨좋은장씨 2020.04.06 16:23 신고 잘 사용해주셔서 감사합니다. 아직 사용자 사전을 추가해서 사용해보지는 않았으나 근 시일 내에 해보고 포스팅 해보려합니다!
-
방지기 2020.04.23 13:07 안녕하세요! nlp 청년인재 프로그램 정보 잘 읽었습니다!.. 향후 IT 기업 입사에 도움이 되는 인사이트(데이터분석 처리)를
해당 프로그램을 통해 많이 얻으셨는지 궁금해요! -
사용자 솜씨좋은장씨 2020.04.24 09:04 신고 somjang@kakao.com 으로 메일 주시면 답변 드리겠습니다~
-
kungmo 2020.06.16 18:40 덕분에 colab에서 mecab을 잘 쓰고 있습니다.
쉘 스크립트 너무 좋습니다.
정말 감사합니다!! -
사용자 솜씨좋은장씨 2020.06.18 17:17 신고 감사합니다!
-
Gad 2020.08.31 09:44 덕분에 mecab을 드디어 써봅니다^^
윗분도 질문 주셨는데, colab에서 사용자 사전 변경과 불용어 처리를 어찌할지 막막하네요. 혹시 그 이후에 시도를 해보셨는지요? -
사용자 솜씨좋은장씨 2020.08.31 10:19 신고 사용자 사전 변경은 아직 시도해보지 않았습니다. 근 시일내에 시도해보고 성공한다면 업데이트 하겠습니다!
불용어처리는 mecab내부를 조작하여 사용하지는 않았고 불용어 사전을 텍스트 파일로 만들어두고 코드에서 파일을 불러와 리스트로 만든 뒤에 처리는 해보았습니다!
감사합니다! -
사용자 솜씨좋은장씨 2020.09.02 20:31 신고 """
추출한 명사 단어를 mecab 사용자 사전 템플릿으로 구성한다.
"""
# 종성 우무 판단
def check_jongsung(c):
c = c[-1:]
if int((ord(c) - 0xAC00) % 28) != 0:
return 'T'
else:
return 'F'
def make_vocab(filepath, readfile, outfile, pos):
with open(filepath+outfile, 'w', encoding='utf-8') as outfile , \
open(filepath+readfile, 'r', encoding='utf-8') as infile:
for line in infile:
word = line.strip()
tag = check_jongsung(word)
if '인명' in readfile:
temp = f'{word},,,,{pos},인명,{tag},{word},*,*,*,*'
outfile.write(temp + '\n')
else:
temp = f'{word},,,,{pos},*,{tag},{word},*,*,*,*'
outfile.write(temp+'\n')
filepath = 'D:/mecab/dic/'
make_vocab(filepath, '일반명사.txt', 'vocab_nng.txt', 'NNG')
make_vocab(filepath, '고유명사.txt', 'vocab_nnp.txt', 'NNP')
make_vocab(filepath, '인명.txt', 'vocab_person.txt', 'NNP') -
사용자 솜씨좋은장씨 2020.09.02 20:32 신고 사용자 사전 변경은 어떤 분께서 다음의 코드를 공유해주셨습니다.
-
tana 2020.12.05 16:19 안녕하세요 잘 보고 갑니다.
코랩에서 하다가 저도
NameError: name 'Tagger' is not defined
이런 에러가 떠서 구글링을 좀 해봤는데 결국 mecab-ko, mecab-dic 같은 파일이 설치 안된게 아니라
코랩 런타임 재실행 하니까 해결됐습니다. 감사합니다 :D -
사용자 솜씨좋은장씨 2020.12.05 18:17 신고 오... 해결 방법까지 댓글로 남겨주시다니 ㅠㅠ
감사합니다~~~~ -
장진행 2020.12.10 21:32 신고 Mecab 설치가 윈도우에서 되는 블로그의 글은 이 사이트가 유일하네요 ~~
복받으실 거에요~~~ ^^