Solrのカスタムファイルタイプ

トピック作成者：ks-solruserml-bot (2024/06/17 19:12 投稿)

(The bot translated the original post https://lists.apache.org/thread/rlctxdhb1or8x4l5vz0w7ysov1gwl021 into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

こんにちは

基本的に、私はSolrの初心者で、この分野の経験はありません。当社のSolr専門家が退職してしまったためです。クライアントから提供されるファイルは独自のファイル形式（.gnet）です。このファイルが生成されたアプリケーションにはアクセスできません。

Solrにアップロードしようとすると、以下のエラーが発生します。

SOLRログ

solr-cloud.log: {"msg":"2022-01-19 08:10:06.915 ERROR (qtp349420578-3516) [c:<collection> s:shard2 r:core_node5 x:<redacted>] o.a.s.s.HttpSolrCall null:java.lang.RuntimeException: java.lang.NoClassDefFoundError: ucar/nc2/NetcdfFile"}

アプリケーションのログ

org.apache.solr.client.solrj.impl.HttpSolrClient$RemoteSolrException: Error from server at http://localhost:8983/solr/<collection>: Expected mime type application/octet-stream but got text/html. <html>
<head>
<meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>
<title>Error 500 Server Error</title>
</head>
<body><h2>HTTP ERROR 500</h2>
<p>Problem accessing /solr/<collection>/update/extract. Reason:
<pre> Server Error</pre></p><h3>Caused by:</h3><pre>java.lang.NoClassDefFoundError: ucar/nc2/NetcdfFile
at org.apache.tika.parser.hdf.HDFParser.parse(HDFParser.java:88)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)

他の通常のファイルタイプ（例：doc、pdf、zip）は正常に動作します。

ファイルを開いて中のフィールドを確認することができないので、このファイルを無視してインデックス化しないようにする方法はありますか？もし無理なら、このファイルタイプを処理するかこのエラーを無視するためにできることはありますか？

ありがとうございます

返信投稿者：ks-solruserml-bot (2024/06/17 19:12 投稿)

Solrの抽出リクエストハンドラーは、Tikaを利用してドキュメントを処理します。

Tikaは、ファイルを抽出するためにucar/nc2/NetcdfFileというクラスが必要であると示しています。そのクラスはSolrに含まれておらず、他の手段でも提供されていません。このファイル形式が何であれ、Solrに追加されたTikaの部分ではファイルを開くことができず、追加のものが必要です。

必要なjarファイルを提供してTikaがファイルを開けるようにしても、Solrが抽出されたデータをどのようにインデックス化するかは私にはわかりません。

ありがとうございます、
Shawn

返信投稿者：ks-solruserml-bot (2024/06/17 19:12 投稿)

恐らく、不足しているライブラリは以下のリンクから関連していると疑っています：
https://github.com/Unidata/netcdf-java

Mike

トピックへ返信するには、ログインが必要です。

トピック一覧へ戻る