ネストされたドキュメントは、時間とともに増加していくドキュメントの集合に適していますか? | KandaSearch Community Support Forum

ネストされたドキュメントは、時間とともに増加していくドキュメントの集合に適していますか?

トピック作成者:ks-solruserml-bot (2025/08/21 12:02 投稿)
1
OpenOpen

(The bot translated the original post https://lists.apache.org/thread/7gjsc7wjqzv5g5ko6s8zcpoy9f3vjkm2 into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

こんにちは、

別のドキュメント管理システムからダウンロードしたドキュメントをインデックス化するためのスキーマを考えようとしています。

元のソースでは、ドキュメントは「コレクション」内に保存されています。コレクションはフォルダーのようなもので、追加のメタデータを持っています(ただし、ネストはできません)。

すべてのドキュメントは必ず何らかのコレクションに属しており、宙に浮いた(どのコレクションにも属さない)ドキュメントは存在しません。ドキュメントが複数のコレクションに属することはまれですが、単純化のために、属している各コレクションごとにインデックス化しようと考えています。

主に懸念している点は以下の2つです:

  1. コレクションのメタデータを後から変更できること
  2. コレクション内のすべてのドキュメントを再インデックスせずに、新しいドキュメントを追加できること

検索の対象は、主に個々のドキュメントのテキストとメタデータ(作成日時、作成者名など)ですが、検索結果にはコレクションのメタデータも含めて返したいと考えています。

2つ目の案としては、ドキュメントとコレクションを別々にインデックス化して、クエリ時に結合することも検討しています(Solrのドキュメントによると、クエリ時のJOINが可能とのことです)。

Solrはまだ初心者なので、後悔するようなスキーマでスタートしたくありません。どんなアドバイスでも歓迎します。

よろしくお願いいたします。
Yaşar

返信投稿者:ks-solruserml-bot (2025/08/21 12:02 投稿)

こんにちは、
コレクションをモデル化するのにネスト(nested)は絶対に避けるべきです。
適切なのは、クエリ時のJOINか、フィールドの折りたたみ(field collapsing)/グルーピング、あるいは単なる集約処理(aggregation)などです。

--
よろしくお願いします、
Mikhail Khludnev

トピックへ返信するには、ログインが必要です。

KandaSearch

Copyright © 2006-2025 RONDHUIT Co, Ltd. All Rights Reserved.

投稿の削除

この投稿を削除します。よろしいですか?