Solr が私が求めているものか、それとも他の何かか

トピック作成者:ks-solruserml-bot (2024/06/22 19:26 投稿)
6
CloseClose

(The bot translated the original post https://lists.apache.org/thread/pp7ndf4t5bj72r3cdwk6yydmp3xnjxc5 into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

申し訳ありませんが、質問がやや多くなってしまった場合について、お詫び申し上げます。特に、適切な専門用語を知らないときに自分の意図をうまく伝えるのに苦労しています。

私の印象(誤解かもしれませんが)では、Solrを使用してISBNを検索し、インデックスされたファイルのどれかに含まれるすべてのISBNのリストを取得できると思っていますが、それは必要ありません。

私がしたいのは、特定のディレクトリのリスト内のすべてのファイルに含まれるすべての単語をインデックスすることです。昔のmnogoSearchのようにです。基本的に、これは「grep -l」のキャッシュ準備者と言えます。

検索ソフトウェアが単語の組み合わせで検索できることを期待しています。これは組み込まれていると仮定しています。

私はこれをすべてローカルで行いたいと考えています。クラウドなどは使いたくありません。mnogoSearchはうまく機能していましたが、廃止されてしまったので、現代的なものに移行したいと考えています。Apache Nutchはウェブクローラーであり、ファイルのインデックス指定のためだけにウェブサーバーを設定するのは人工的に感じます。もちろん、そうすることもできますが、なんだか...もっと直接的な方法があるはずですよね。

Solrがこれを行う手段として提案されました。他に必要なものはありますか?

j.

返信投稿者:ks-solruserml-bot (2024/06/22 19:26 投稿)

はい、おそらくSolrがこのニーズを処理できるでしょう。

私の理解では、Nutchは実際には検索を行わないようです。Nutchはウェブサイトをクロールし、そこに含まれるすべてのデータを収集するのに非常に優れていますが、収集したデータを検索するために他のソフトウェアに依存しています。多くの人々から、Nutchのインデックス処理をSolrに任せるという声を聞いています。

これは確実に正しい答えを出すのが難しい質問です。一般的に、Solrはおそらくあらゆる種類の検索ニーズを満たすことができますが、時々、Solrが適切な解決策でない場合もあります。

ここにあるあまり情報がないため、あなたのニーズについては慎重にSolrが適していると言えると思います。この答えが正しいかどうかを確認するには、さらに情報が必要です。具体的にどのような情報が必要かは一概には言えませんが、データ検索に関する高レベルな情報から始めれば、次にどんな質問をすれば良いかがわかるでしょう。

まず最初に明確にすることは...検索の結果として何を得たいのか? Solrに結果グリッドのすべての情報を提供してもらう必要がありますか、それともSolrが一意のIDを返し、そのIDを使ってソフトウェアが別のシステムで詳細をユーザーに提供するのが十分でしょうか? これがSolrの「ドキュメント」を定義するスタート地点です。私が設計した大規模なシステムでは、Solrのドキュメントは基本的にデータベーステーブルの行でした。そのテーブルには1億6千万の行がありました... MySQLのテーブルファイル全体が1テラバイトを超えていました。Solrには実際にそれらのドキュメントごとに多くの情報が保存されており、検索結果グリッドは完全にSolrから表示されました。ユーザーがその中から結果をクリックした場合、検索結果の一意の識別子を使用して、詳細情報を提供するためにデータベースが参照されました。

ありがとうございます。
Shawn

返信投稿者:ks-solruserml-bot (2024/06/22 19:27 投稿)

Dockerコンテナを起動できますか?最近では、何かを試すためにインスタンスを立ち上げるのはそれほど難しくありません。

Dima

返信投稿者:ks-solruserml-bot (2024/06/22 19:27 投稿)

いくつかのチュートリアルを見て、必要な情報が得られるか確認するつもりです。まだSolrは私の必要以上に多機能なように感じますが、まあ、新しいことを学ぶことは悪いことではありません。少し調査してみます。もしもっと助けが必要になったら、また質問します。返信してくれた皆さん、ありがとうございます。

j.

返信投稿者:ks-solruserml-bot (2024/06/22 19:27 投稿)

Solrが正しく理解しているのであれば、あなたが求めていることは簡単に実現できます。重要な用語としては、「ドキュメント」があります。これは検索結果として返される予定のアイテムを指し、あなたの場合はテキストファイルが含まれるフォルダに相当します。また、「フィールド」は各ドキュメントのメタデータポイントを示し、あなたの場合は生のテキスト、ISSN/ISBN、そしてタイトルが該当するでしょう。そして「ID」はあなたの「ドキュメント」を識別する一意のフィールドであり、あなたの場合は単純にフォルダ名であるかもしれません。これが基本的な概念の説明に少しでも役立つことを願っています。

返信投稿者:ks-solruserml-bot (2024/06/22 19:27 投稿)

Solrには、ほとんどのユーザーが必要としない多くの機能が含まれています。

その全てが少し圧倒的です。私たちのプロジェクトには必要なものがありません―とてもシンプルなユースケースの設定がありません。キッチンシンクが含まれていないものです。

よろしくお願いします。
Shawn

返信投稿者:ks-solruserml-bot (2024/06/22 19:27 投稿)

サンプルの設定ファイルをベースにして、不要だと思われる部分をコメントアウトしました。つまり、実際に使用していない機能についての方が、私が使用している機能よりも詳しく調査を行っています。

Thomas

トピックへ返信するには、ログインが必要です。

KandaSearch

Copyright © 2006-2024 RONDHUIT Co, Ltd. All Rights Reserved.

投稿の削除

この投稿を削除します。よろしいですか?