SOLR Cell Tikaを使用してファイル（html, pdf）をインデックス化する際のエラー

トピック作成者：ks-solruserml-bot (2024/07/03 12:12 投稿)

(The bot translated the original post https://lists.apache.org/thread/yzjnfcxs3bbclcgkbc6sv281yprs4ls4 into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

こんにちは、

htmlやpdfなどのファイルをインデックス化しようとしています。curlコマンドで定義されたユニークIDに関連する以下のエラーが発生しました。ユニークIDはliteral.idパラメータで設定されています。

SOLR Cellとtikaのすべてのドキュメントを読み、記載されている手順を実行しています。助けていただけますか？

以下はcmdで入力した内容です。

C:\>*curl "https://localhost:8984/solr/XP0_Slavik_web_index/update/extract?literal.id=doc1?commit=true" -F "myfile=@example.pdf"*
{
"responseHeader":
{"status":400, "QTime":55},
"error":{
"metadata":[
"error-class","org.apache.solr.common.SolrException",
"root-error-class","org.apache.solr.common.SolrException"],
"msg":"*Document is missing mandatory uniqueKey field: _uniqueid*",
"code":400}}

返信投稿者：ks-solruserml-bot (2024/07/03 12:13 投稿)

エラーメッセージに基づくと、「literal.id」ではなく「literal._uniqueid」を使用する必要があるようです。おそらくスキーマには「id」というフィールドが存在せず、「_uniqueid」というフィールドが必須になっています。

詳細については、Solr Cell を使用して Apache Tika でデータをアップロードするをご覧ください。基本的なポイントとしては、literal.foobar=baz とすることで、「foobar」というフィールドに「baz」という値を設定することができます。したがって、literal.id は特別なものではなく、「id」というフィールドを追加しているだけで、これはスキーマに対しては不十分です。

Gus

トピックへ返信するには、ログインが必要です。

トピック一覧へ戻る