SolrでのDistributed IDF(逆文書頻度)の使用におけるExactStatsCacheの問題
(The bot translated the original post https://lists.apache.org/thread/s1bm9kxf07ngpglxy1vt2tmx8tcsy1zn into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)
こんにちは、
私はSolrを分散環境で使用しており、コレクションを複数のパートに分けて、それぞれ異なるノードで動作させています。各パートを作成するときには、numShardsとreplicationFactorを1に設定しています。クエリの速度が最も重要であり、システムの負荷については心配していません。
コレクション全体でDistributed IDFを使用したいので、solrconfig.xmlに以下の行を追加しました:
<statsCache class="org.apache.solr.search.stats.ExactStatsCache" />
これで約90%の確率で正常に動作するようですが、同じリクエストを何度も実行すると、時々コレクションの一部のローカルIDFのみを使用したスコアが得られます。以下はリクエストの例です:
/solr/collection1,collection2/query?q=fulltext:shark&rows=500&fl=id,url,title,score&sort=score+desc
このリクエストで、collection1とcollection2の両方からドキュメントは取得できますが、時々、collection1のみをクエリしたときと同じスコアが得られます。その場合、用語のドキュメント頻度として、collection1のものだけが使用されていると思われます。
別の設定を使用すべきでしょうか?同じクエリを実行するたびにIDFが常に分散され、同じであることを確認したいです。これを確実にするための技術があれば教えてください。
ありがとうございます、
Cameron VandenBerg
トピックへ返信するには、ログインが必要です。