CentOS7のPython3でJUMAN++のインストールと利用

Python3で形態素解析を行えるツールの「JUMAN++」のインストールを行います。

Pythonで形態素解析といえば「Janome」や「MeCab」が有名ですが、そちらに比べ単語の並びの意味的な自然さを考慮した解析を行います。

開発は「京都大学の黒橋・河原研究室」で行われています。
http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN++

今回はCentOS7のpython3.6の環境に導入を行なっています。

尚、インストールにあたっては以下を参考にさせていただきました。

★Python3からJUMAN++を使う@CentOS7
https://umiushizn.blogspot.com/2017/09/python3jumancentos7_9.html

 

インストールの準備

インストールにあたっては「gcc」と「c++」が必要になります。

 

Boost C++ Libraries のインストール

また、インストールにあたっては「Boost C++」が必要になります。

cpuのコア数を確認し、インストール時にj4オプション(コア数に応じて数を変更)をつけないと軽くはまります。

 

JUMAN++のインストール

インストールはソースから以下のように実施します。

 

無事インストールできたらテストを行います。

はい。無事「人参」というキーワードで分かれずに「外国」「人」「参政」「権」というキーワードで分かれてますね。

 

Python環境のインストール

さて、無事コマンドから利用できたところでPython環境のインストールを行います。

 

それではサンプルのファイルを準備します。

 

それでは実行してみます。

先ほどのコマンドと結果は変わらないです。

形態素解析も複数ありますが、それぞれ性能も異なり結果も随分変わってきます。

辞書などによっても結果は変わってきますので、こちらは用途によってで。

今回はこの辺で。