Solrインデックスの内容をエスケープ解除する | KandaSearch Community Support Forum

Solrインデックスの内容をエスケープ解除する

トピック作成者:ks-solruserml-bot (2025/08/21 11:53 投稿)
5
OpenOpen

(The bot translated the original post https://lists.apache.org/thread/jq058mopx8bs3mdpwwz7m5b82yf0jnsf into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

こんにちは。

HTMLタグを含む完全なWebページを、その元の内容のまま保存したいと考えています。これはサイバーセキュリティツール用です。

http://localhost:8984/solr/#/MYCOLLECTION/query?q=: にアクセスすると、(望んでいない)エスケープがされているのが見えます。
一方、http://localhost:8984/solr/MYCOLLECTION/select?q=* をブラウザで見るとエスケープは表示されません。
しかし、curl "http://localhost:8984/solr/MYCOLLECTION/select?q=*" を使うと、またエスケープされた結果になります。

HTMLをエスケープされない状態で保存・取得するにはどうすればいいでしょうか?

よろしくお願いいたします。

返信投稿者:ks-solruserml-bot (2025/08/21 11:54 投稿)

インデックスに登録しているコンテンツの例と、実際に表示されている結果を示してもらえますか?

たとえば、以下のような内容をインデックスしたとします:

<html lang="en"><title>test</title></html>

そして、生のレスポンス結果が次のように表示されている場合:

"<html lang="en"><title>test<\/title><\/html>"

これは単にJSONのために必要なエスケープ処理が施されているだけです。
これはSolrがレスポンスを返す前に適用するものであり、インデックスに保存されている内容自体がこのようにエスケープされているわけではありません。
JSONレスポンスを正しくデコードするツールで扱えば、インデックスされた元の文字列がそのまま利用されます。

もしそれ以外の問題であれば、Solrスキーマ内の該当フィールド定義もあわせて共有してください。状況を詳しく確認できます。

Thomas

返信投稿者:ks-solruserml-bot (2025/08/21 11:54 投稿)

もちろん、私たちはあなたのシステムや計画について多くを知らないわけですが、あなたのメールから受け取れる限られた情報を見ると、Solrの性質について誤解されている可能性があります。

Solrは検索インデックスであり、その主な役割は、テキストやその他のデータ(例えば空間データなど)に基づいてデータを検索することです。そして、検索結果に対する計算(関連度ランキング、カウント、ファセット、分析など)を行うことができます。
Solrにおけるデータの保存は副次的な目的です。

もし「保存」があなたの主目的であるなら、一歩引いて「Solrがその用途に適しているのか?」と問い直してみる必要があるかもしれません。

さらに、「完全な」Webページを保存するといっても、1990年代後半以降の多くのWebページは、HTML、CSS、JavaScript、画像など複数のファイルで構成されています。

もし主な目的がデータの保存であれば、リレーショナルデータベース(RDBMS)やNoSQLデータベースの方が適しています。これらはトランザクション、データの正規化、バックアップなどの点でより優れた機能を提供します。

コンテンツをデータベースに保存したうえで、Solrでインデックスを作成することも可能です。その際、データベースのID(またはファイルごとのID)をSolrのフィールドとして格納することで、検索結果から元のデータを簡単に取得できます。

—Gus

Needham Software (仕事)
私のファンタジー小説

返信投稿者:ks-solruserml-bot (2025/08/21 11:54 投稿)

こんにちは。

このセキュリティ上の問題について繰り返しお伝えしてしまい申し訳ありません。
お伺いしたいのは、「私のデータはすでにアンエスケープされた状態でインデックスに保存されていて、それがブラウザで表示されるときにエスケープされているだけなのか」、それとも「最初からエスケープされた状態で保存されているのか」という点です。

私のサイバーセキュリティツールのために、これはどうしても必要な情報です。

よろしくお願いいたします。

返信投稿者:ks-solruserml-bot (2025/08/21 11:54 投稿)

あっ、すみません!スパムとしてマークされていて、まだ読んでいませんでした!すぐに読みますね!!!

返信投稿者:ks-solruserml-bot (2025/08/21 11:54 投稿)

おお、素晴らしい!とても良かったです!
アンエスケープされた内容で検索すれば、それがちゃんと見つかると知って、とても嬉しいです。

エスケープされた文字で検索しないといけないのではと心配していました。

ありがとうございます。よろしくお願いいたします!

トピックへ返信するには、ログインが必要です。

KandaSearch

Copyright © 2006-2025 RONDHUIT Co, Ltd. All Rights Reserved.

投稿の削除

この投稿を削除します。よろしいですか?