Solr CloudがHTMLを含むフィールドをインデックス化しない(本番環境のみ)

トピック作成者:ks-solruserml-bot (2024/06/14 22:39 投稿)
1
CloseClose

(The bot translated the original post https://lists.apache.org/thread/s0w1071qktq27hd7gdcrbdr8ozb168l8 into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

こんにちは、

Sitecoreでタイプがリッチテキストに設定されているフィールドがあります。下位環境(ローカルおよびプリプロダクションのオンプレミス)では、値が正しくインデックス化され、HTMLテキストがSolrに正しく保存されます。しかし、本番環境(Solr Cloud)では、このフィールドのHTMLが完全に削除されます。

違いとして、下位環境ではSolrがオンプレミスであり、本番環境ではSolr Cloudを使用しています。CMおよびCDサーバーを確認しましたが、すべてのサーバーにBody Copyフィールドのフィールドリーダーがあります。

問題の原因は何でしょうか?本番環境でのみ発生しています。設定が期待通りであることを確認しました。フィールドはBody Copyです。

<fieldReaders type="Sitecore.ContentSearch.FieldReaders.FieldReaderMap, Sitecore.ContentSearch">
  <param desc="id">defaultFieldReaderMap</param>
  <mapFieldByTypeName hint="raw:AddFieldReaderByFieldTypeName">
    <fieldReader fieldTypeName="html|rich text" fieldReaderType="Sitecore.ContentSearch.FieldReaders.RichTextFieldReader, Sitecore.ContentSearch" />
  </mapFieldByTypeName>
  <mapFieldByFieldName hint="raw:AddFieldReaderByFieldName">
    <fieldReader fieldName="Body Copy" fieldReaderType="Sitecore.ContentSearch.FieldReaders.DefaultFieldReader, Sitecore.ContentSearch" />
  </mapFieldByFieldName>
</fieldReaders>

一部のコンテンツでのみ発生し、他のコンテンツには影響しません。HTMLエラーが報告されたフィールドのHTMLエラーを解決しましたが、それでも問題は解決しませんでした。

ありがとうございます、
Anthony

返信投稿者:ks-solruserml-bot (2024/06/14 22:39 投稿)

あなたのローカルのsolrconfig.xmlと本番環境のものを比較してください。間違ったものを比較するのを避けるために、理想的にはconfig APIを使用するか、もしくは本番環境のzookeeperに実際にあるものと一致しないローカルコピーを避けてください。

使用されているエンドポイント(/update?、/extract?)や定義されたリクエストハンドラ、および更新リクエストプロセスチェーンを確認してください。また、Tikaライブラリが適切に定義されているかどうかも確認してください。これがHTML抽出に使用されているものと思われます。

よろしく、
Alex

トピックへ返信するには、ログインが必要です。

KandaSearch

Copyright © 2006-2024 RONDHUIT Co, Ltd. All Rights Reserved.

投稿の削除

この投稿を削除します。よろしいですか?