CentOS7のPython3でMeCabのmecab-ipadic-neologdのインストールと利用

前回、Python3で形態素解析を行えるツールの「JUMAN++」のインストールを行なったので比較として「MeCab」の「mecab-ipadic-neologd」を利用した形態素解析を行なってみます。

NEologdは、Web上から得た新語に対応したシステム辞書です。

新語に非常に強く、番組名やタレントなどの情報も更新が早いです。
また、辞書の更新も毎月行われており非常に早いです。

環境はpython3.6をCentOS7の環境で実施しています。

 

インストールの準備

Groongaリポジトリを設定しておけばyumコマンドで入るので楽チンです。

Groongaリポジトリを導入

 

Mecab本体+その他諸々のインストール

 

mecab-ipadic-neologdのインストール

さて、ここからが今回の本番です。

 

こちらで無事インストールは完了です。

それではプログラムを作成してみます。

 

この辺は前回のJUMAN++の比較も兼ねて実施しています。

それでは実行します。

 

最初の二つのtextはJUMAN++の結果と大きく変わっています。

以下がJUMAN++の結果です。

 

外国人参政権は固有名詞として辞書登録がされているので分割されないようです。

二つ目のテキスト(私もあさって日曜最終日)では「あさって」が分割されているところが特徴でしょうか。
こちらはややJUMAN++の方が文章としては強いっぽいイメージもあります。

ただ、三つ目のテキスト(ペンパイナッポーアッポーペン)が固有名詞として登録されているのはmecab-ipadic-neologdの強さとなります。

完全に使いどころではありますが、比較として確認してみました。

pythonで利用する時のオプション設定

 

mecabでは出力モードの設定ができます。

ChaSen 互換形式

「-Ochasen」でChaSen 互換形式になります。

サンプルは以下になります。

 

結果は以下になります。

 

分かち書きのみを出力

「-Owakati」で分かち書きのみを出力します。

サンプルは以下になります。

 

結果は以下になります。

 

読みのみを出力

「-Oyomi」で読みのみを出力します。

サンプルは以下になります。

 

結果は以下になります。

 

品詞によって分ける

使い方どころは色々あります

品詞など見ながらの抽出などはよくやります。

例えば以下のように記号(句読点なども)を取り除いて文書の解析など実施できます。

 

結果は以下になります。