관리 메뉴

솜씨좋은장씨

Ubuntu에서 Khaiii 설치하기 본문

머신러닝 | 딥러닝/자연어처리

Ubuntu에서 Khaiii 설치하기

솜씨좋은장씨 2020. 9. 10. 13:56
728x90
반응형

형태소 분석기로는 mecab을 주로 사용하다가 kakao에서 만든 khaiii를 활용하여 분석한 결과를 적용하면

현재 하고 있는 작업에서 어떤 변화가 있을까 궁금하여 설치해보게 되었습니다.

 

khaiii는 kakao에서 만든 형태소 분석기로 세종 코퍼스와 그외 오류를 수정한 다양한 코퍼스 그리고 CNN을 기반으로

만들어진 형태소 분석기라고 합니다.

 

kakao/khaiii

Kakao Hangul Analyzer III. Contribute to kakao/khaiii development by creating an account on GitHub.

github.com

파일 다운로드

 $ git clone https://github.com/kakao/khaiii.git 

먼저 git clone 명령어를 통해 설치에 필요한 파일을 다운로드 받습니다.

 $ cd khaiii 

khaiii 디렉토리로 이동합니다.

 

빌드

 $ mkdir build 

build 디렉토리를 생성합니다.

 $ cd build 

build 디렉토리로 이동합니다.

 $ cmake .. 
 $ make all 
 $ make resource 

위의 명령어를 통해 build 해 줍니다.

 

만약 cmake 명령어를 찾을 수 없다고 한다면

 $ pip install cmake
 $ sudo apt-get install cmake

위의 두가지 명령어 중 한가지로 cmake를 설치해 줍니다.

 

만약 아래와 같은 오류가 발생한다면

(PythonHome) ubuntu@nipa2020-0000:~/somjang-utils/khaiii/build$ cmake ..
CMake Error at CMakeLists.txt:1 (cmake_minimum_required):
  CMake 3.10 or higher is required.  You are running version 3.5.1


-- Configuring incomplete, errors occurred!
 

[Ubuntu] CMake 업데이트 하는 방법

nipa에서 지원 받은 서버에 카카오에서 딥러닝 기반으로 개발한 Khaiii 형태소 분석기를 설치하려고 하던 중 (PythonHome) ubuntu@nipa2020-0000:~/somjang-utils/khaiii/build$ cmake .. CMake Error at CMakeLi..

somjang.tistory.com

위의 링크를 참고하여 CMake의 버전을 업데이트 해주시기 바랍니다.

 

정상 빌드 여부 확인

 $ ./bin/khaiii --rsc-dir=./share/khaiii 

위의 명령어를 통해 제대로 정상적으로 빌드가 되었는지 확인해봅니다.

(PythonHome) ubuntu@nipa2020-0983:~/somjang-utils/khaiii/build$ ./bin/khaiii --rsc-dir=./share/khaiii
[2020-09-10 13:46:01.572] [Resource] [info] NN model loaded
[2020-09-10 13:46:01.572] [Preanal] [info] preanal dictionary opened
[2020-09-10 13:46:01.572] [ErrPatch] [info] errpatch dictionary opened
[2020-09-10 13:46:01.572] [Restore] [info] restore dictionary opened
[2020-09-10 13:46:01.572] [Resource] [info] PoS tagger opened

위처럼 명령어를 입력하면 Pos tagger opened 이외에 더이상 진행되지 않습니다.

이 때 분석을 희망하는 문장을 입력하면 아래와 같이 분석 결과가 나옵니다.

카카오에서 만든 형태소분석기
카카오에서	카/NNG + 카/NNP + 오/NNG + 에서/JKB
만든	만들/VV + ㄴ/ETM
형태소분석기	형태소분석기/NNG

빠져나오는 방법은 ctrl + C 단축키를 입력하여 빠져나오면 됩니다.

 

Python에서 사용할 수 있도록 설치

 $ sudo make install 
 $ make package_python 
 $ cd package_python 
 $ pip install . 

 

사용 방법

from khaiii import KhaiiiApi
api = KhaiiiApi()
for word in api.analyze('카카오에서 만든 형태소 분석기'):
	print(word)

위처럼 import 해서 사용하면됩니다.

 

읽어주셔서 감사합니다.

Comments