公式ドキュメントにあるSolr Cellの例がうまく動作しないのですが?

トピック作成者:ks-solruserml-bot (2024/08/24 21:55 投稿)
1
OpenOpen

(The bot translated the original post https://lists.apache.org/thread/6s3hwpx47bbc90560sszg5mmolz2og3o into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

今日は、いくつかのPDFファイルをインデックス化してみました。

しかし、SolrCloudのDockerイメージなどを使って数時間試してもうまくいかなかったため、まずはドキュメントの指示通りに進めるべきだと判断しました。

そこで、以下のリンクからSolr 8.11のアーカイブをダウンロードしました:
https://www.apache.org/dyn/closer.lua/lucene/solr/8.11.2/solr-8.11.2.zip?action=download

アーカイブをフォルダに展開し、次にドキュメントにあるコマンドを実行しました:
https://solr.apache.org/guide/8_11/uploading-data-with-solr-cell-using-apache-tika.html

bin/solr -e schemaless

問題なく起動し、「gettingstarted」というコアが作成され、すべてが正常に動作しました!

その後、ドキュメントにある以下のコマンドを試してみました:

curl "http://localhost:8983/solr/gettingstarted/update/extract?literal.id=doc1&commit=true" -F "myfile=@example/exampledocs/solr-word.pdf"

しかし、404エラーが返されました。今日試した他の方法でも404エラーが発生していました。「schemaless」サンプルは、私の環境ではsolrconfig.xmlにExtractingRequestHandlerをまったく設定していないようです。

私が何か間違っているのでしょうか?

--ufuk

返信投稿者:ks-solruserml-bot (2024/08/24 21:56 投稿)

Solr 8.xはほぼ終わりに近づいています。現在はメンテナンスモードにあり、大きなバグやセキュリティ問題のみが修正されます。バージョン10.0.0がリリースされると、8.xは完全にサポート終了となり、9.xがメンテナンスモードに移行します。リリースは事前に予定されていないため、10.0.0のリリース時期はわかりません。

ドキュメントの指示は8.11に関しては正しくないようです。schemalessの例では、SolrCell用の正しいハンドラーが設定されていません。

9.xを使用するべきです。最新のリファレンスガイドの指示は完全に記載されているようです。ただし、それらの指示は9.xのみに存在する機能を使用しているため、8.xでは利用できません。

Solrの最新のインデックスガイド

SolrCellを本番環境で使用することは強く推奨されません。Tikaは非常に不安定で、大量のメモリを消費し、さらにはクラッシュすることが知られています。TikaがSolr内で動作しているときにこのような問題が発生すると、その問題はSolrにも影響を及ぼします。そのため、Tikaを実行してデータを収集し、それをSolrにインデックス化する別のプログラムを作成する方が良いでしょう。クラッシュなどの問題が発生しても復旧できるインフラを持つプログラムです。

これはリファレンスガイドに記載されています:

Solrの最新のインデックスガイド

ありがとう、
Shawn

トピックへ返信するには、ログインが必要です。

KandaSearch

Copyright © 2006-2024 RONDHUIT Co, Ltd. All Rights Reserved.

投稿の削除

この投稿を削除します。よろしいですか?