Solr が私が求めているものか、それとも他の何かか

トピック作成者：ks-solruserml-bot (2024/06/22 19:26 投稿)

(The bot translated the original post https://lists.apache.org/thread/pp7ndf4t5bj72r3cdwk6yydmp3xnjxc5 into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

申し訳ありませんが、質問がやや多くなってしまった場合について、お詫び申し上げます。特に、適切な専門用語を知らないときに自分の意図をうまく伝えるのに苦労しています。

私の印象（誤解かもしれませんが）では、Solrを使用してISBNを検索し、インデックスされたファイルのどれかに含まれるすべてのISBNのリストを取得できると思っていますが、それは必要ありません。

私がしたいのは、特定のディレクトリのリスト内のすべてのファイルに含まれるすべての単語をインデックスすることです。昔のmnogoSearchのようにです。基本的に、これは「grep -l」のキャッシュ準備者と言えます。

検索ソフトウェアが単語の組み合わせで検索できることを期待しています。これは組み込まれていると仮定しています。

私はこれをすべてローカルで行いたいと考えています。クラウドなどは使いたくありません。mnogoSearchはうまく機能していましたが、廃止されてしまったので、現代的なものに移行したいと考えています。Apache Nutchはウェブクローラーであり、ファイルのインデックス指定のためだけにウェブサーバーを設定するのは人工的に感じます。もちろん、そうすることもできますが、なんだか...もっと直接的な方法があるはずですよね。

Solrがこれを行う手段として提案されました。他に必要なものはありますか？

返信投稿者：ks-solruserml-bot (2024/06/22 19:26 投稿)

はい、おそらくSolrがこのニーズを処理できるでしょう。

私の理解では、Nutchは実際には検索を行わないようです。Nutchはウェブサイトをクロールし、そこに含まれるすべてのデータを収集するのに非常に優れていますが、収集したデータを検索するために他のソフトウェアに依存しています。多くの人々から、Nutchのインデックス処理をSolrに任せるという声を聞いています。

これは確実に正しい答えを出すのが難しい質問です。一般的に、Solrはおそらくあらゆる種類の検索ニーズを満たすことができますが、時々、Solrが適切な解決策でない場合もあります。

ここにあるあまり情報がないため、あなたのニーズについては慎重にSolrが適していると言えると思います。この答えが正しいかどうかを確認するには、さらに情報が必要です。具体的にどのような情報が必要かは一概には言えませんが、データ検索に関する高レベルな情報から始めれば、次にどんな質問をすれば良いかがわかるでしょう。

まず最初に明確にすることは...検索の結果として何を得たいのか？ Solrに結果グリッドのすべての情報を提供してもらう必要がありますか、それともSolrが一意のIDを返し、そのIDを使ってソフトウェアが別のシステムで詳細をユーザーに提供するのが十分でしょうか？これがSolrの「ドキュメント」を定義するスタート地点です。私が設計した大規模なシステムでは、Solrのドキュメントは基本的にデータベーステーブルの行でした。そのテーブルには1億6千万の行がありました... MySQLのテーブルファイル全体が1テラバイトを超えていました。Solrには実際にそれらのドキュメントごとに多くの情報が保存されており、検索結果グリッドは完全にSolrから表示されました。ユーザーがその中から結果をクリックした場合、検索結果の一意の識別子を使用して、詳細情報を提供するためにデータベースが参照されました。

ありがとうございます。
Shawn