音声検索

トピック作成者:ks-solruserml-bot (2024/06/04 22:27 投稿)
2
CloseClose

(The bot translated the original post https://lists.apache.org/thread/4b7l6s9j5yvxy2g4g3dnwzc93824kbq3 into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

こんにちは、

Solr 8.8.1を使用しており、音声検索オプションを使いたいと考えています。そのため、schema.xmlファイルを修正し、インデックスを再構築しました。

<!-- German -->
<dynamicField name="*_txt_de" type="text_de" indexed="true" stored="true"/>
<fieldType name="text_de" class="solr.TextField" positionIncrementGap="100">
  <analyzer>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.StopFilterFactory" ignoreCase="true" words="lang/stopwords_de.txt" format="snowball"/>
    <filter class="solr.GermanNormalizationFilterFactory"/>
    <filter class="solr.GermanLightStemFilterFactory"/>
    <filter class="solr.BeiderMorseFilterFactory" nameType="GENERIC" ruleType="APPROX" concat="true" languageSet="auto"/>
    <!-- less aggressive: <filter class="solr.GermanMinimalStemFilterFactory"/> -->
    <!-- more aggressive: <filter class="solr.SnowballPorterFilterFactory" language="German2"/> -->
  </analyzer>
</fieldType>

「mueller」で検索しても「müller」を含む連絡先が見つかることを期待していましたが、効果がないようです。
何が欠けているのか、何かアイデアはありますか?

ありがとう、
Christian

返信投稿者:ks-solruserml-bot (2024/06/04 22:28 投稿)

管理UIには、インデックス化されたテキストと検索テキストを入力し、段階ごとの処理とマッチングを確認できる分析画面があります。

その方法を試してみてください。これにより、より速く試行錯誤することができます。

よろしく、
Alex

返信投稿者:ks-solruserml-bot (2024/06/04 22:28 投稿)

javadocによると、BeiderMorseFilterFactory はStandardTokenizerの後に使用することが推奨されています。

おそらく、GermanNormalizationFilterFactoryやGermanLightStemFilterFactoryはBeiderMorseFilterFactoryと一緒に使用すべきではありません。ステムが切り捨てられると、その発音が一致しなくなる可能性があります。

一方、異なる表記法(ß <-> ss)で書かれたドイツ語の単語を一致させたいだけなら、GermanNormalizationFilterFactoryだけで十分です。BeiderMorseFilterFactoryは必要ありません。

追伸:私はドイツ語の話者ではなく、上記の主張を実際にテストしたわけではありません。ただの推測です。

トピックへ返信するには、ログインが必要です。

KandaSearch

Copyright © 2006-2024 RONDHUIT Co, Ltd. All Rights Reserved.

投稿の削除

この投稿を削除します。よろしいですか?