セマンティックサーチで劇的に改善する辞書検索の世界
P01 表紙
セマンティックサーチで劇的に改善する辞書検索の世界 2022年9月7日 株式会社ロンウイット
関口宏司
P02 セマンティックサーチ*1
(*1:ニューラルサーチやベクトル検索などと呼ばれることもあります。本書ではセマンティックサーチで統一します)
人が理解するのと同じように検索エンジンがテキスト・画像・動画・音声データを理解して高速に検索できる
P03 オンライン辞書一覧(Wikipediaより)
https://ja.wikipedia.org/wiki/%E3%82%AA%E3%83%B3%E3%83%A9%E3%82%A4%E3%83%B3%E8%BE%9E%E6%9B%B8%E3%81%AE%E4%B8%80%E8%A6%A7
P04 内容
- デモ
- 現状の辞書検索サービスの機能とその限界
- セマンティックサーチによる改善
- 辞書検索デモの考察
- セマンティックサーチの応用例
- 従来型キーワード検索との比較
- セマンティックサーチ・スタートアップ・パッケージのご案内
P05 デモ
データソース: https://sanabo.com/words/
P06 思わずニヤっとしちゃう四字熟語ベスト3(SNS用語編)*1
*1: 本資料作成時である2022年9月5日のモデルを使用した結果です。モデルは不定期に改善され、本資料と異なる結果が出る可能性があります。
第3位 ツイッター
炉辺談話 (ろへんだんわ)
街談巷説 (がいだんこうせつ)
流言飛語 (りゅうげんひご)
P07 思わずニヤっとしちゃう四字熟語ベスト3(SNS用語編)
第2位 相互フォロー
紳士協定 (しんしきょうてい)
不即不離 (ふそくふり)
- 二つのものがつきも離れもしないこと。当たらずさわらずあいまいなようす。
社交辞令 (しゃこうじれい)
- 人とうまく付き合っていくためのお世辞。リップサービス。
P08 思わずニヤっとしちゃう四字熟語ベスト3(SNS用語編)
第1位 リア充
順風満帆 (じゅんぷうまんぱん)
銀鱗躍動 (ぎんりんやくどう)
元気溌剌 (げんきはつらつ)
P09 思わずハッと膝を打つ四字熟語ベスト3(IT・ビジネス用語編)
第3位 人事異動
新陳代謝 (しんちんたいしゃ)
- 古いものが去り、新しいものが変わってあらわれること。
送故迎新 (そうこげいしん)
- 前任者を見送り、後任者を迎えること。転じて、人を見送ったり迎えたりすること。
離合集散 (りごうしゅうさん)
- 離れたり、合わさったり、別れたり集まったりすること。
P10 思わずハッと膝を打つ四字熟語ベスト3(IT・ビジネス用語編)
第2位 プログラム
按部就班 (あんぶしゅうはん)
- 文章の構成に応じて語句を選択して使用すること。順序を追って実行する。
量体裁衣 (りょうたいさいい)
- 状況に合わせて、最も現実的な方法を使って処理すること。
起承転結 (きしょうてんけつ)
- 「起」で始まり「承」で受け、「転」で変化を出し「結」で終結させる構成方法。
P11 思わずハッと膝を打つ四字熟語ベスト3(IT・ビジネス用語編)
第1位 サービス残業
霑体塗足 (てんたいとそく)
- つらい労働の様子。からだをぬらし、足を泥まみれにして、田畑で仕事をする姿から。
一得一失 (いっとくいっしつ)
- 一方は良いが一方は良くないこと。利益があると同時に一つの損があること。
粗製濫造 (そせいらんぞう)
P12 辞書検索デモの考察
- セマンティックサーチの利点
- シンプルに楽しい!検索が止まらない
- (見出し語ではなく)意味から検索できる。見出し語を探している人にとっての神ツール
- 意味で使われていない単語を使っても検索できる
- 何かしらの近い結果を出してくれる
- 「霑体塗足 (てんたいとそく)」や「銀鱗躍動 (ぎんりんやくどう)」など、ほとんど引かれることがないような四字熟語もどんどん掘り起こされる ⇒ 日本の学力や文化の向上に役立つ
- (終わりのない)類義語定義が一切不要。活用のある単語に対する悩みも解消
- セマンティックサーチの欠点(というか、応用に当たっての注意点)
- 第1位に出てこない場合も
- 第10位までに出てこない場合も ⇒ そもそもそのような慣用句・四字熟語が存在しない
- UIに工夫が必要かも
- 利用者側に「意味」を自分なりの表現でも正しく伝えられるコミュニケーション能力が求められる
- "β"版とする
- 「キーワード検索⇔セマンティックサーチ」の自動・半自動切り替え
P13 セマンティックサーチの応用例
- ECサイト
- 街中で見た商品を写真に撮って、普段使っているECサイトで写真から商品を検索して購入
- チャットボット
- ドメイン特有のキーワードを知らないユーザーでも、ズバリの答え(FAQリンク等)を探し当てやすくなる ⇒ 利用者のイライラを解消
- Q&A検索
- お客様(病院の場合は患者)の生の声による疑問・質問に対し、専門家(病院の場合は医者)が答えているようなQ&Aサイトの検索。「心配事」が同じ(ベクトルが類似)でも必ずしも同じキーワードが使われないので、キーワード検索よりもセマンティックサーチの方が有利に働く
- 社内知識共有/ナレッジマネジメント
- 従来型のキーワード検索では実現できない検索が実現可能(次ページ参照)
P14 【再掲】ナレッジマネジメント(企業内検索システム)の限界
生命保険会社よりヒアリング
- 調べたいこと:「損金を計上するメリットとは?」
- 現状のキーワード検索だと、「損金」「計上」「メリット」というキーワードで検索することになる。 ⇒ キーワードをバラバラに含む文書が多数ヒットして、探したいものが見つからない。
… … … … … … … メリット … … … … … … …。… … … … … …… … … … … … …… … … … … … …… … … … … … … 損金 … … 。 … … … …… … … … … … …… … … … … … …… … … … … … … … … … … … … …… … … … … … …… … … … … … …。 … … … … … …… … … … … … …… … … … … … …… … … … … … … 計上 … … 。 …
- 調べたいこと:「契約者と被保険者が別人の時の保全の手続き」
- 調べたいこと:(年齢によって異なる)「30歳の本人確認書類」
P15 【再掲】セマンティックサーチでナレッジマネジメントを改善
- 調べたいこと:「損金を計上するメリットとは?」と入力すれば、そのものズバリの答えが載っている文書が上位表示される。
- 調べたいこと:「契約者と被保険者が別人の時の保全の手続き」も同様に検索してズバリの回答を得られる。
- 調べたいこと:(年齢によって異なる)「30歳の本人確認書類」
- 「20歳以上の本人確認書類はXXX」
- 「合わせて読みたい」(レコメンド)⇒「14歳以下はXXX」「15歳以上20歳未満はXXX」
- 適切なアプリケーションにセマンティックサーチを適用すれば、調べ物の時間を大幅に改善できる。
P16 【再掲】従来型のキーワード検索との比較
- 従来のキーワード検索では文書に含まれるキーワードを入力しないと検索できない
- ある程度業務ドメインの知識がないと検索できない
- ドメイン知識があっても、同じ意味を持つキーワードは複数存在するので、類義語辞書のメンテナンスが欠かせない
- セマンティックサーチでは必ずしもクエリのキーワードはヒットする必要がない
- 業務ドメインの知識がなくても、調べたいことを自分なりの表現にすれば検索できる
- (例)ECサイトで「机を組み立てるのに必要な工具」
- (例)辞書・慣用句・ことわざを調べるのに、意味から調べられる
- (例)法令・判例検索システムを法科大学院の学生や新人の判事・検事・弁護士の研修に用いる
- コーパス収集時期とクエリ時期が離れていても検索できる
- 従来のキーワード検索における検索性能*1を向上させるための施策
- 文字等さまざまな正規化
- 形態素解析と文字N-gramの使い分けや組み合わせ
- キーワードの表記揺れ対策やシノニム定義
- フィールドの重み付け
- クエリサジェスチョン etc.
- セマンティックサーチは上記従来テクニックを一切不要にする破壊的な技術
*1: 情報検索における精度(Precision)と再現率(Recall)のことを指します。
P17 セマンティックサーチ・スタートアップ・パッケージ
P18 セマンティックサーチ スタートアップ・パッケージのご案内
- セマンティックサーチを初めて試してみたいという会社様向けサービス
- 自社の業務データにセマンティックサーチが役立つのか知りたい
- 新しいビジネスアイディアの投資判断
- PoC
- ロンウイットのAI技術者が担当
- 作業期間9〜10月のうち、着手から5日間で納品
- 価格:50万円(税別)
- パッケージに含まれるもの*1
- 要件ヒアリング
- 着手初月KandaSearch利用料(翌月から請求が発生します)
- 着手日から10日間のWebApp利用料*2
- ベクトル化モデル、ベクトル化データ(数万件以内を想定)、WebAppソースコード(キーワード検索+セマンティックサーチ or 画像検索)
*1: 上記条件に沿わない場合は別途お見積もりいたします。お気軽にご相談ください。
*2: 11日目以降継続利用の場合は、実費(為替レート1円単位繰り上げ/136円/$⇒140円/$)および事務手数料(10%)を請求させていただきます。
P19 スタートアップ・パッケージ システム構成
検索WebApp
↓
↓(接続元IP制限)
↓
WebApp - ベクトル化モデル
↓
↓ q=[ベクトル化データ]
↓
KandaSearch*2 - Solrインデックス
1: HerokuまたはDigital Oceanを想定しています。 2: Mediumサイズ以上を推奨します。
P20 お申し込み〜納品・検証までのフロー
(お客様⇒弊社)
セマンティックサーチ・スタートアップ・パッケージお申し込み。
↓
(弊社⇒お客様)
対象データやアプリケーション要件をヒアリング。*1
↓
(お客様⇒弊社)
弊社指定環境に対象データをアップロード。
KandaSearch内に検索プロジェクト作成。
↓
(弊社)
モデル作成。ベクトルデータの最適化。WebApp構築。
↓
(お客様)
結果検証。プロジェクト継続判断。*2
↓
本格的な業務適用。
プロジェクトを開始。
1: 不適合と判断する場合があります。 2: 「継続しない」をご選択いただけます。
P21 検索アプリケーション開発*1はお任せください!
ロンウイットでは、検索アプリケーション開発をワンストップで承ることができます。以下の技能を持ったタレントが皆様をお待ちしております!
- PM
- Webアプリケーション+データベース
- React、JavaScript
- セキュリティ、ユーザー認証(二要素認証、ソーシャルログイン等)
- 検索エンジン
- スキーマ設計
- 従来型キーワード検索、セマンティックサーチ、類似画像検索
- AI/深層学習、NLP、画像処理
- DevOps
*1: これまではコンサルティングサービスのみでしたが、昨年度より受託開発を承っております。
P22 Q&Aアンケート