Elasticsearchの形態素解析機Sudachiでユーザー辞書(dictionary)の活用

前回、Elasticsearchのkuomojiでの辞書(dictionary)と類義語(synonym)の設定を行なったので、Sucachiでの辞書の登録をして見ます。

★Elasticsearchのkuromojiの検索で重要な辞書(dictionary)と類義語(synonym)の設定
https://developer-collaboration.com/2019/01/30/elasticsearch-kuro-dictionary-synonym/

類義語(synonym)の登録はkuromojiと全く違いがありません。

searchモードだと失敗するのでnormalで実施しましょうぐらいが気をつける点です。

ただ、辞書(dictionarry)の方は作成方法などがkuromojiとは随分と異なり、データファイルを作成する必要があります。

 

Sudachiでのユーザー辞書の作成

公式のドキュメントは以下となります。
https://github.com/WorksApplications/Sudachi/blob/develop/docs/user_dict.md

まず、辞書ファイルの定義方法がかなり異なります。

フォーマットはCSVで以下のような形となります。
[crayon-5dfb570b7282d644105665/]  

まず項目が非常に大きくなります。

 

今回、以下のような辞書ファイルを作成します。
[crayon-5dfb570b72841216613676/] 左連接ID、右連接IDなどはgitのドキュメントを参照で。

コストは名詞類の登録の推奨の”5000 ~ 9000″で一番解析結果結果の出やすくなる5000を設定しています。

 

こちらをデータファイルに変換します。

コマンドの形式は以下です。
[crayon-5dfb570b72847628567073/]  

実際に変換したコマンドは以下で。
[crayon-5dfb570b7284b113050814/]  

jarファイルを使うのでパスなどは環境に合わせて変更になるでしょう。

 

そしてSucachiの設定ファイルである「/etc/elasticsearch/sudachi/sudachi.json」は以下のようになっています。
[crayon-5dfb570b72850253639419/] userDictの部分が追加されています。

配列にしないとエラーになります。

 

それでは解析を行います。

まず、indexの作成などを行うためにsettingファイルの準備をします。
[crayon-5dfb570b72856705151285/]  

indexの作成を行います。
[crayon-5dfb570b7285b517750929/]  

次に単語の解析を実施します。
[crayon-5dfb570b7285e214283320/]  

無事、辞書で登録された形で登録されました。

 

尚、辞書を登録する前の結果は以下で分解された形となっていました。
[crayon-5dfb570b72863542400935/]  

Sudachiでのユーザー辞書の作成は以上となります。

辞書(dictionary)と類義語(synonym)を合わせることでより制度の高いサーチエンジンとして活用することができます。

今回はこの辺で。