SEMANTIC

セマンティック検索とは

セマンティック検索について

セマンティックとは

セマンティック検索の「セマンティック(semantic)」とは、一般用語としては「意味」や「意味論」のことで、IT用語としては、コンピュータに文書や情報の持つ「意味」を理解させる技術について用られる言葉です。

セマンティック検索とは

セマンティック検索とは、検索エンジンが検索文と検索対象の内容の「意味」を理解して行われる情報検索です。 KandaSearchでは、AI技術を活用し、人間が理解するのと同じように、検索エンジンがテキストや画像の意味を理解した検索を行う機能を提供しています。

従来のキーワード検索では、キーワードと一致する単語を含む文書を探していましたが、セマンティック検索では、「意味的」に相応しい文書を返してくれます。また、テキストだけでなく、画像やデータも検索対象になります。

革新的な検索技術

このセマンティック検索は、革新的に新しい技術として、今、注目を集めており、適用領域が広がりつつあります。これまでのキーワード検索では実現が困難だった次のような検索が実現可能となりました。

  • 自然言語による問合せ内容の意味を理解した検索
  • ある文書の内容を元に、文書集合に対して意味的な類似検索を行うコンテンツマッチング
  • 意味ベースの連想検索
  • 日本語を使って英語の文書を検索(他の言語間でも可)
  • テキストでの画像検索も可能、異なる種別オブジェクト間のマルチモーダル検索
  • 生成AI(LLM:大規模言語モデル)にセマンティック検索結果を組み合わせることで(RAG:検索拡張生成)、より正確で最新の回答を生成

ChatGPTなどの生成AIは革新的な技術で素晴らしいものです。一方で、厄介なことに、「幻覚(実際には存在しない情報であるにもかかわらず、まるで真実であるかのように回答してしまう)」という現象があります。セマンティック検索であれば、出典明確な、信頼できるドキュメント集合から、より安心で、正確な情報を見つけ出すことが出来ます。

従来のキーワード検索との比較

セマンティック検索と従来からのキーワード検索について、検索体験の比較をいくつか挙げてみます。

1.従来のキーワード検索では文書に含まれるキーワードを入力しないと検索できない

  • ある程度、業務ドメインの知識(業種ごとの専門知識)がないと検索できない
  • 業務ドメインの知識があっても、同じ意味を持つキーワードは複数存在するので、類義語辞書のメンテナンスが欠かせない

2.セマンティック検索では必ずしもクエリのキーワードにヒットする必要がない

  • 業務ドメインの知識がなくても、調べたいことを自分なりの表現(自分のレベルの表現)にすれば検索できる
  • ドキュメント収集時期とクエリ時期が離れていても検索できる

3.従来のキーワード検索における検索性能を向上させるために下記のテクニックやメンテナンスが必要だったが、セマンティック検索には不要。労力や費用の削減につながる。

  • 文字等さまざまな正規化
  • 形態素解析と文字N-gramの使い分けや組み合わせ
  • キーワードの表記揺れ対策やシノニム(類義語)定義
  • フィールドの重み付け など

セマンティック検索の適用例

セマンティック検索が持つ特徴を生かすことで、次のような業務アプリケーションへ応用できます。

FAQやマニュアルの検索

FAQやマニュアルの検索においては、検索対象文書の専門性が高い一方、検索者(製品ユーザーなど、社外の人間が想定される)は専門家ではないため、両者のボキャブラリー・ギャップが発生しがちです。 従来型のキーワード検索ではクエリのキーワードが一致しないと検索できませんが、セマンティック検索はキーワードが一致しなくても意味が似ているものが検索できます。それにより、ユーザーが問題を自己解決でき、コールセンター/ヘルプデスクへの問い合わせを削減できます。

企業内検索、ナレッジ共有、コールセンター/ヘルプデスクでの検索

企業内検索、ナレッジ共有のシーンでは、検索対象文書の専門性が高く、そのため文書が強い「意味(セマンティック)」を持ちます。専門用語を知らなくても、意味が似ているものを検索できるセマンティック検索が向いています。

ECサイト/通販サイトでの類似商品検索

ECサイト/通販サイトでセマンティック検索を使えば、検索時に指定する商品のテキストや画像と類似した他の商品を提示することができるので、購入の機会向上につなげることができます。

類似意匠・商標検索など、テキスト以外の検索

セマンティック検索は、検索対象やクエリがテキストでなくても実行できます。そのため、これから特許庁に登録出願しようとする意匠や商標に類似のものがないかどうかを、手元のイラスト画像ファイルを元にして検索し、画像が持つ「意味」の近い順に結果表示する、というアプリケーションが構築可能です。

探究学習や研究開発

教育リソース(辞書・百科事典・教科書)や専門性の高い論文などで、意味ベースの連想検索が容易に実装可能です。探究学習やR&Dのような発見的検索に向いています。

マルチモーダル検索

セマンティック検索はクエリと検索対象文書の持つ「意味」で検索するため、クエリと検索対象文書が異なるオブジェクト種別でも問題なく検索が可能です。たとえば、画像を指定して類似した画像を検索する、テキストで画像を検索する、日本語で英語のマニュアルを検索する、などが可能です。

ChatGPTとの比較

ChatGPTは生成AIチャットであり、プロンプトと呼ばれるテキストなどによる質問・命令を通じて、人間とリアルタイムの会話を行うツールです。 一方、セマンティック検索に対応するKandaSearchの検索エンジンは、大量のテキスト・画像・動画・音声などのデータから目的のものを探すためのツールで、両者は用途が全く異なります。

ChatGPTは正解がない推論が得意です。それゆえ、利用者はChatGPTの出力が正しいかどうか、常に気をつける必要があります。それに対してKandaSearchのセマンティック検索は、検索時に指定したクエリの「意味」に近いものを、信頼できるドキュメント集合から探して結果を返します。そのため「幻覚(ハルシネーション)」の心配がなく、顧客など社外と直接やりとりする業務アプリケーションに安心して利用できます。

ChatGPTをはじめとする生成AIチャットばかりがネットを賑わせ、セマンティック検索エンジンの導入をためらっていませんか。以下で紹介する動画では、生成AIチャットではなくセマンティック検索エンジンを導入すべき場面をわかりやすく解説しています。ぜひご覧ください。

生成AIチャットとセマンティック検索エンジンを比較するのに擬人化してみたらわかりやすかった | AI Chat vs. Semantic Search Engines

関連情報

本ページ以外にも、セマンティック検索に関するさまざまな情報・データをご提供しています。(上記ご紹介分を含みます)

お見積もり・詳細は KandaSearch チームに
お気軽にお問い合わせください。

お問い合わせ