時々フィールドが消える | KandaSearch Community Support Forum

時々フィールドが消える

トピック作成者:ks-solruserml-bot (2024/12/28 18:37 投稿)
8
OpenOpen

(The bot translated the original post https://lists.apache.org/thread/tvpzsc0qqwqywvcp7wxk1tk9dtly1x5n into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

親愛なる皆様、

私は奇妙な問題に直面しています。

私は、Ubuntu上でSolr 8.11.3を使用しており、1.5TBのRAMとSSD NVMeを備えています。

私のコレクションは約8TBで、約1億5900万件のドキュメント、30フィールドを持っています。
XMLドキュメントを週に2回インデックスしています。約20万件で、サイズは15~20GBです。すべて順調に動作しています。

しかし、一部のインデックス済みドキュメントでデータが欠けています。
主に欠けているのは、タイトル(title)と説明(description)の2つのフィールドです。
タイトルは通常、単なる1文であり、説明は長いテキスト(数ページ分のテキスト)であることが多いです。

欠けているフィールドがあるドキュメントはコレクション内に存在していますが、これら2つのフィールドが時々欠けています。
もちろん、これらのフィールドはXMLのソースファイルには存在しています。

そして、なぜそうなるのか分かりません。同じドキュメントを再インデックスすると、これら2つのフィールドが現れます。

最初のインデックス処理中にエラーはなく、コミットも正常に完了しています。

この問題について何かアイデアがありますか?

よろしくお願いします、
Bruno Mannina

返信投稿者:ks-solruserml-bot (2024/12/28 18:37 投稿)

インデックスされるデータが変更されている可能性はありますか? つまり、データが変更され、最初のインデックス処理でドキュメントがエラーを起こす原因となる何かがデータ内にあった場合、そして2回目には正常に動作したとしたら、それが説明になるかもしれません。

返信投稿者:ks-solruserml-bot (2024/12/28 18:37 投稿)

すみません、実際にはそのフィールドがテキストではないという意味でした。もしフィールドに何か問題があれば、通常ドキュメント全体がエラーになるはずです。さて、大した助けにはならなかったですね。ログを調べて何が起きているのか確認する必要があります。試しに、これら2つのフィールドを必須に設定して、エラーが発生するか確認してみてはどうでしょうか。

返信投稿者:ks-solruserml-bot (2024/12/28 18:38 投稿)

Robiさん

ご回答ありがとうございます。本日ログファイルを確認して、エラーメッセージがあるかどうか見てみます。
インデックス作成中にエラーがなかったことは確認できます。

この問題が削除されたドキュメントの消去(expunge deleted doc action)による可能性はあると思いますか?

よろしくお願いします、
Bruno Mannina

返信投稿者:ks-solruserml-bot (2024/12/28 18:38 投稿)

私たちも似たような挙動を確認しました。一部のドキュメントでコレクション内のフィールドが欠落することがあります。これは、ブールフィールドでファセットを実行すると確認でき、値が変化しており、元の状態に戻ることはありません。ただし、そのフィールドに影響を与える更新はありません。つまり、ファセットの値は本来同じであるべきでした。
シャードで IndexCheck を実行しましたが、すべて正常(破損なし)でした。また、ログにも特に目立った問題はありませんでした。

Hitendra Talluri

返信投稿者:ks-solruserml-bot (2024/12/28 18:38 投稿)

こんにちは、Hitendraさん

使用していたSolrのバージョンを覚えていますか?私の環境では8.11.3を使用しています。

よろしくお願いします、
Bruno Mannina

返信投稿者:ks-solruserml-bot (2024/12/28 18:38 投稿)

おそらく:https://stackoverflow.com/questions/51896397/losing-the-indexed-data-on-updating-in-solr

よろしくお願いします、
Bruno Mannina

返信投稿者:ks-solruserml-bot (2024/12/28 18:39 投稿)

そして、実際に私はいくつかのAtomicUpdateを行っています。

リンク先のメッセージより:
https://stackoverflow.com/questions/51896397/losing-the-indexed-data-on-updating-in-solr

Atomic Updatesに関するドキュメントによると:

ドキュメントを原子的に更新するコア機能では、スキーマ内のすべてのフィールドが stored="true" または docValues="true" に設定されている必要があります。ただし、宛先となるフィールドに関しては stored="false" に設定されている必要があります。

あなたの body フィールドは stored または docValuestrue に設定されていますか?その理由は、内部的にSolrはドキュメント全体を再インデックスしているため、元のデータを復元する方法がないフィールドについてはデータが失われてしまうからです。

よろしくお願いします、
Bruno Mannina

返信投稿者:ks-solruserml-bot (2024/12/28 18:39 投稿)

そのリンク先のアドバイスに従うべきですね。

トピックへ返信するには、ログインが必要です。

KandaSearch

Copyright © 2006-2025 RONDHUIT Co, Ltd. All Rights Reserved.

投稿の削除

この投稿を削除します。よろしいですか?