SEMANTIC

セマンティック検索とは

セマンティック検索とは

セマンティック検索の「セマンティック(semantic)」は、日本語で「概念」や「意味」のことです。
それでは、セマンティック検索とは何でしょうか?

セマンティック検索とは、検索エンジンが人間のようにクエリと検索対象オブジェクトの「意味」を理解して行われる情報検索です。そのため、これまでのキーワード検索では実現が困難だった次のような検索が実現できます。

  • テキストクエリによるテキスト文書検索
  • 画像を検索元にした類似画像検索
  • テキストクエリによる画像・動画・音声データ検索
  • 自言語テキストクエリを使って他言語の文書を検索

しかも、検索結果の応答速度が、従来のキーワード検索と遜色なく実現できるとしたらどうでしょうか? セマンティック検索は、これまでの常識を変える革新的な技術といってよいでしょう。

セマンティック検索(セマンティックサーチ)は以下のように呼ばれることがありますが、すべて同じ技術です。ここではセマンティック検索という呼称で統一します。

・ベクトル検索(ベクトルサーチ、Vector Search)
・密ベクトル検索(密ベクトルサーチ、Dense Vector Search)
・ニューラル検索(ニューラルサーチ、Neural Search)

従来のキーワード検索との比較

セマンティック検索と従来からのキーワード検索について、検索体験の比較をいくつか挙げてみます。

1.従来のキーワード検索では文書に含まれるキーワードを入力しないと検索できない

  • ある程度、業務ドメインの知識(業種ごとの専門知識)がないと検索できない
  • 業務ドメインの知識があっても、同じ意味を持つキーワードは複数存在するので、類義語辞書のメンテナンスが欠かせない

2.セマンティック検索では必ずしもクエリのキーワードにヒットする必要がない

  • 業務ドメインの知識がなくても、調べたいことを自分なりの表現(自分のレベルの表現)にすれば検索できる
  • ドキュメント収集時期とクエリ時期が離れていても検索できる

3.従来のキーワード検索における検索性能を向上させるために下記のテクニックやメンテナンスが必要だったが、セマンティック検索には不要。労力や費用の削減につながる。

  • 文字等さまざまな正規化
  • 形態素解析と文字N-gramの使い分けや組み合わせ
  • キーワードの表記揺れ対策やシノニム(類義語)定義
  • フィールドの重み付け など

セマンティック検索の適用例

セマンティック検索が持つ特徴を生かすことで、次のような業務アプリケーションへ応用できます。

FAQやマニュアルの検索

FAQやマニュアルの検索においては、検索対象文書の専門性が高い一方、検索者(製品ユーザーなど、社外の人間が想定される)は専門家ではないため、両者のボキャブラリー・ギャップが発生しがちです。 従来型のキーワード検索ではクエリのキーワードが一致しないと検索できませんが、セマンティック検索はキーワードが一致しなくても意味が似ているものが検索できます。それにより、ユーザーが問題を自己解決でき、コールセンター/ヘルプデスクへの問い合わせを削減できます。

企業内検索、ナレッジ共有、コールセンター/ヘルプデスクでの検索

企業内検索、ナレッジ共有のシーンでは、検索対象文書の専門性が高く、そのため文書が強い「意味(セマンティック)」を持ちます。専門用語を知らなくても、意味が似ているものを検索できるセマンティック検索が向いています。

ECサイト/通販サイトでの類似商品検索

ECサイト/通販サイトでセマンティック検索を使えば、検索時に指定する商品のテキストや画像と類似した他の商品を提示することができるので、購入の機会向上につなげることができます。

類似意匠・商標検索など、テキスト以外の検索

セマンティック検索は、検索対象やクエリがテキストでなくても実行できます。そのため、これから特許庁に登録出願しようとする意匠や商標に類似のものがないかどうかを、手元のイラスト画像ファイルを元にして検索し、画像が持つ「意味」の近い順に結果表示する、というアプリケーションが構築可能です。

探究学習や研究開発

教育リソース(辞書・百科事典・教科書)や専門性の高い論文などで、意味ベースの連想検索が容易に実装可能です。探究学習やR&Dのような発見的検索に向いています。

クロス検索(マルチモーダル検索)

セマンティック検索はクエリと検索対象文書の持つ「意味」で検索するため、クエリと検索対象文書が異なるオブジェクト種別でも問題なく検索が可能です。たとえば、画像を指定して類似した画像を検索する、テキストで画像を検索する、日本語で英語のマニュアルを検索する、などが可能です。

ChatGPTとの比較

ChatGPTは生成AIチャットであり、プロンプトと呼ばれるテキストなどによる質問・命令を通じて、人間とリアルタイムの会話を行うツールです。 一方、セマンティック検索に対応するKandaSearchの検索エンジンは、大量のテキスト・画像・動画・音声などのデータから目的のものを探すためのツールで、両者は用途が全く異なります。

ChatGPTは正解がない推論が得意です。それゆえ、利用者はChatGPTの出力が正しいかどうか、常に気をつける必要があります。それに対してKandaSearchのセマンティック検索は、検索時に指定したクエリの「意味」に近いものを、信頼できるドキュメント集合から探して結果を返します。そのため「幻覚(ハルシネーション)」の心配がなく、顧客など社外と直接やりとりする業務アプリケーションに安心して利用できます。

ChatGPTをはじめとする生成AIチャットばかりがネットを賑わせ、セマンティック検索エンジンの導入をためらっていませんか。以下で紹介する動画では、生成AIチャットではなくセマンティック検索エンジンを導入すべき場面をわかりやすく解説しています。ぜひご覧ください。

生成AIチャットとセマンティック検索エンジンを比較するのに擬人化してみたらわかりやすかった | AI Chat vs. Semantic Search Engines

関連情報

本ページ以外にも、セマンティック検索に関するさまざまな情報・データをご提供しています。(上記ご紹介分を含みます)

お見積もり・詳細は KandaSearch チームに
お気軽にお問い合わせください。

お問い合わせ