NEWS

類義語辞書機能をリリースしました!

  

投稿日: 2022年06月28日

    

類義語辞書機能をリリースしましたのでお知らせします。

先日開催した Apache Solr ハンズオンセミナー「第3回 日本語表記揺れ検索を極める」の演習では、今回ご案内する類義語辞書機能を先行して使っておりましたが、本日正式に本機能のリリースをご案内いたします。

概要

ご存知の通り、Apache Solr では SynonymGraphFilter や ManagedSynonymGraphFilter を使うことで類義語検索が可能です。この機能を使うためには、CSVファイル(SynonymGraphFilterの場合)またはJSONファイル(ManagedSynonymGraphFilterの場合)形式で辞書を定義したり、デプロイを注意深く行うことが必要です。

KandaSearch の類義語辞書機能を使うことで、類義語辞書の管理とデプロイが簡単になります。

使い方

KandaSearch の類義語辞書はプロジェクトで作成し、利用時にデプロイ先のインスタンスとコレクションを選択します。以下、類義語辞書の定義とデプロイ方法をこの順に説明します。

なお、ManagedSynonymGraphFilter をクエリ時に展開方式で適用するのがお勧めですので、以下ではその使い方を前提に説明します。

類義語辞書の作成

プロジェクトメニューから「類義語辞書」を選びます。

「辞書を追加する」ボタンで新しい辞書を新規作成します。適当な辞書名(日本語可)を付けて作成してください。

「辞書を見る」(本の見開きアイコン)ボタンをクリックします。そこの「類義語セットを追加する」をクリックします。

「新しい単語」と書かれているところに類義語キーワードを入力します。ここでは「パソコン」とします。キーワードを入力したら必ず「+」(プラス)をクリックしてください。もう一つ、「PC」というキーワードを登録します。ここでは「パソコン」と「PC」の2つを入力しましたが、3つ以上入れても構いません。「確認」をクリックして類義語セットを登録します。

他にも必要な類義語セットを登録します。

以上で類義語辞書の準備は完了です。

類義語辞書のデプロイ

前述の操作からの続きです。歯車のボタンをクリックし「辞書をデプロイする」を選びます。デプロイ先のインスタンスとコレクションを選択します。

シノニムフィルターにて ManagedSynonymGraphFilter を選択します。

managed-schema ファイルにてあらかじめ設定されている Managed リソースを選びます。

Configuration Parameters を適切に設定します。ここでは形態素解析(JapaneseTokenizer)の場合を示します。

tokenizerFactory=solr.JapaneseTokenizerFactory
tokenizerFactory.mode=normal
ignoreCase=true
format=solr

以上を設定し、「確認」でデプロイします。この後特にリロードなどの操作は不要です。適用したコレクションで「パソコン」と「PC」の相互検索やキーワードハイライトができることを確認してください。

ライブラリーの類義語辞書を使う

KandaSearch には現在1つだけですが、類義語辞書エクステンションがライブラリーにあります。「日英外来語類義語辞書」というもので、CSVとJSON形式がありますが、同じものです。こちらを上で説明した類義語機能にインポートして使うことで、たとえば「インターネット」と「internet」等の相互検索が可能になります。ぜひお試しください!

お見積もり・詳細は KandaSearch チームに
お気軽にお問い合わせください。

お問い合わせ