Solrのストリーミングと検索クエリのパフォーマンスの比較

トピック作成者：ks-solruserml-bot (2024/09/22 22:55 投稿)

(The bot translated the original post https://lists.apache.org/thread/2gjswwj9jslzcgpdm23k2nz7669qjnzt into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

私たちはSolr 8.9.0を使用しています。Solrクラウドを2つのシャードで構成し、各シャードには1つのレプリカがあります。Solrクラウドには5つのZooKeeperを使用しています。

私たちはマルチシャード環境で3つのコレクションを結合したいと考えています。しかし、Solrはマルチシャード環境での結合をサポートしていないと思います。そのため、Solrの検索クエリの代わりにストリームエクスプレッションクエリを使用して、2〜3のコレクションからデータを読み込み、重いデータのインデックス更新のパフォーマンスを向上させようとしています。

ストリームクエリを作成し、これが主に検索クエリと同様に機能することがわかりました。また、75万件のレコードに対して実際のクエリとストリームで分割したクエリを比較するためにロードテストを行いましたが、そのパフォーマンスはほぼ同等であることが確認されました。

両方のクエリのパフォーマンスを比較しようとしていますが、ストリーミングが大規模なデータに対して優れていることが明記されている情報は見つかりませんでした。以下のスレッドによると、大規模なデータに対しては、ストリーミングの方が検索クエリよりもパフォーマンスが良いとされています。
https://stackoverflow.com/questions/41042451/solr-streaming-vs-search

ストリーミングエクスプレッションは大規模なデータに対して本当に有用なのでしょうか？ご意見をいただけると幸いです。

よろしくお願いします。
Vishal

返信投稿者：ks-solruserml-bot (2024/09/22 22:55 投稿)

こんにちは、

ご参考までに、最近のSolrでは複数のシャードを結合することが可能です。ただし、詳細な設定が必要で、あまり柔軟ではありません。
https://solr.apache.org/guide/solr/latest/query-guide/join-query-parser.html#joining-multiple-shard-collections

--
よろしくお願いします、
Mikhail Khludnev

トピックへ返信するには、ログインが必要です。

トピック一覧へ戻る