確認 - オブジェクトストレージ

トピック作成者:ks-solruserml-bot (2024/12/28 18:47 投稿)
7
OpenOpen

(The bot translated the original post https://lists.apache.org/thread/gy2v7wwqgc8x380vd4q4kxt60bbpr0oy into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

こんにちは、

確認したいのですが、SolrはS3のようなオブジェクトストレージに対してバックアップ/リストアAPIを提供していますが、Solr自体をオブジェクトストレージ上で実行するオプションはない、という理解で正しいでしょうか?

ありがとうございます。
Matt

返信投稿者:ks-solruserml-bot (2024/12/28 18:47 投稿)

こんにちは、

その理解で正しいです。ただし、そのようなサポートを追加する計画が進行中です:
https://cwiki.apache.org/confluence/display/SOLR/SIP-20%3A+Separation+of+Compute+and+Storage+in+SolrCloud

Jan

返信投稿者:ks-solruserml-bot (2024/12/28 18:48 投稿)

ありがとう、Janさん!

返信投稿者:ks-solruserml-bot (2024/12/28 18:48 投稿)

こんにちは、Janさん

SIP-20をオンプレミスのオブジェクトストレージ(例えば、クラウドのS3ではなく)で実装する際に、多くの障害があるかどうかご存知ですか?

Matt

返信投稿者:ks-solruserml-bot (2024/12/28 18:48 投稿)

こんにちは、

詳しくはわかりませんが、Solrのバックアップ機能はMinIOのようなS3互換のストレージでも動作します。そして、こういった機能は多くの場合プラグイン形式で実装されています。
メールリストやJIRAで議論に参加し、あなたの意見を共有することをお勧めします。

Jan

返信投稿者:ks-solruserml-bot (2024/12/28 18:48 投稿)

私はNetAppアプライアンスを使用してS3バックアップを試みていますが、問題に直面しています。これを成功させた人はいますか?バケットに404エラーが発生していますが、確かに存在します:

2024-09-09 22:40:28.657 DEBUG (qtp1257299717-124-bio-gp.cels.anl.gov-4) [c:genome s: r: x: t:bio-gp.cels.anl.gov-4] o.a.h.wire http-outgoing-4 >> "HEAD /solr9-backup/genome/ HTTP/1.1[
][
]"

2024-09-09 22:40:28.703 DEBUG (qtp1257299717-124-bio-gp.cels.anl.gov-4) [c:genome s: r: x: t:bio-gp.cels.anl.gov-4] s.a.a.request Received failed response: 404, Request ID: 1725921628649471, Extended Request ID: 12605632

オブジェクト自体は確かに存在しているようです:

$ s3cmd info s3://solr9-backup/genome
s3://solr9-backup/genome (object):
File size: 0
Last mod: Fri, 06 Sep 2024 21:02:31 GMT
MIME type: inode/x-empty
Storage: STANDARD
MD5 sum: d41d8cd98f00b204e9800998ecf8427e
SSE: none
Policy: none
CORS: none
ACL: CELS-PATRIC: FULL_CONTROL
x-amz-meta-s3cmd-attrs: atime:1725644332/ctime:1725644326/gid:20001/gname:cels/md5:d41d8cd98f00b204e9800998ecf8427e/mode:33188/mtime:1725644326/uid:10078/uname:svcbvbrc

NetAppを使用してこれを動作させることができた人はいますか?

よろしくお願いします。
Bob

返信投稿者:ks-solruserml-bot (2024/12/28 18:49 投稿)

皆さん、こんにちは。このスレッドは興味深いですね。私はS3とSolrをよく使っています。また、[旧バージョンの] MinIOも大好きで、専用のストレージサーバーにSSDをたくさん搭載して運用していますが、これは本番環境では使用していません。

S3は多くの用途で素晴らしいですが、HTTPリクエストのように非常に遅延が大きいです。

Solrに関しては、パフォーマンスを出すために、基盤となるサーバー(Linux/UbuntuのEC2インスタンス)に十分なシステムRAMを割り当て、Solrコレクションをキャッシュする必要があると分かりました。これを行うと、iotopで確認できるように、ディスク読み取りがゼロに減少します。

過去にはいろいろな愚かなことを試しました(たとえば、SolrノードでRAMディスクを使用するなど)。しかし、Linuxに十分な余剰RAMを与えれば、OSが自動的にSolrデータ全体をキャッシュしてくれることに気付きました。

私の作業負荷はそれほど大きくないと思います(最大のコレクションは約300万ドキュメントです。ウェブサイトは月間約1100万ページビューを処理し、一部のページはレンダリングするために10回のSolrクエリを実行しますが、非常にうまく機能しています)。ただし、約300万ドキュメントのコレクションでKNN(近傍検索)を行っています。この場合、コレクション全体をRAMに完全にキャッシュしないと、ウェブサイトの応答時間に間に合うことはありません。

これらの経験から考えると、S3オブジェクトストレージがバックアップ以外の用途で使われることは難しいと思います(S3のようなものにバックアップをスケジュールする方法については知りたいです。現在は、ドキュメントを大きなバックアップファイルに手動でコピーして、ElasticSearchにもバックアップしています)。

Derek

※旧バージョンのMinIOが好きな理由は、ファイルが変な形式で保存されないからです。これにより、NGINXサーバーがそのディレクトリ(MinIOバケットのディレクトリ)を参照するだけで動作します。新しいMinIOは独自の形式でファイルを保存しているようです。これはS3のような用途(例えば、バージョニング?詳しくは分かりません)には良いのかもしれませんが、ディスク上の実際のファイルを直接確認したり、ウェブサーバーを介してアクセスすることができないため、オンプレミスのS3 R&Dには旧バージョンのMinIOを使用しています。

返信投稿者:ks-solruserml-bot (2024/12/28 18:49 投稿)

Derekへ

SIP-20の内容をぜひ読んでみてください。シャードの主要なコピーはオブジェクトストアに保存されますが、各ノードのローカルディスクにも常にキャッシュされます。そしてそのローカルディスク上のデータは、仮想メモリにもキャッシュされます。そのため、速度がS3によって制限されることはなく、インデックス作成の遅延が影響する可能性がある程度です。また、データを失うことなくスケールをゼロにすることも可能です。

Jan Høydahl

トピックへ返信するには、ログインが必要です。

KandaSearch

Copyright © 2006-2025 RONDHUIT Co, Ltd. All Rights Reserved.

投稿の削除

この投稿を削除します。よろしいですか?