確認 - オブジェクトストレージ
(The bot translated the original post https://lists.apache.org/thread/gy2v7wwqgc8x380vd4q4kxt60bbpr0oy into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)
こんにちは、
確認したいのですが、SolrはS3のようなオブジェクトストレージに対してバックアップ/リストアAPIを提供していますが、Solr自体をオブジェクトストレージ上で実行するオプションはない、という理解で正しいでしょうか?
ありがとうございます。
Matt
こんにちは、
その理解で正しいです。ただし、そのようなサポートを追加する計画が進行中です:
https://cwiki.apache.org/confluence/display/SOLR/SIP-20%3A+Separation+of+Compute+and+Storage+in+SolrCloud
Jan
こんにちは、Janさん
SIP-20をオンプレミスのオブジェクトストレージ(例えば、クラウドのS3ではなく)で実装する際に、多くの障害があるかどうかご存知ですか?
Matt
こんにちは、
詳しくはわかりませんが、Solrのバックアップ機能はMinIOのようなS3互換のストレージでも動作します。そして、こういった機能は多くの場合プラグイン形式で実装されています。
メールリストやJIRAで議論に参加し、あなたの意見を共有することをお勧めします。
Jan
私はNetAppアプライアンスを使用してS3バックアップを試みていますが、問題に直面しています。これを成功させた人はいますか?バケットに404エラーが発生していますが、確かに存在します:
2024-09-09 22:40:28.657 DEBUG (qtp1257299717-124-bio-gp.cels.anl.gov-4) [c:genome s: r: x: t:bio-gp.cels.anl.gov-4] o.a.h.wire http-outgoing-4 >> "HEAD /solr9-backup/genome/ HTTP/1.1[
][
]"
2024-09-09 22:40:28.703 DEBUG (qtp1257299717-124-bio-gp.cels.anl.gov-4) [c:genome s: r: x: t:bio-gp.cels.anl.gov-4] s.a.a.request Received failed response: 404, Request ID: 1725921628649471, Extended Request ID: 12605632
オブジェクト自体は確かに存在しているようです:
$ s3cmd info s3://solr9-backup/genome
s3://solr9-backup/genome (object):
File size: 0
Last mod: Fri, 06 Sep 2024 21:02:31 GMT
MIME type: inode/x-empty
Storage: STANDARD
MD5 sum: d41d8cd98f00b204e9800998ecf8427e
SSE: none
Policy: none
CORS: none
ACL: CELS-PATRIC: FULL_CONTROL
x-amz-meta-s3cmd-attrs: atime:1725644332/ctime:1725644326/gid:20001/gname:cels/md5:d41d8cd98f00b204e9800998ecf8427e/mode:33188/mtime:1725644326/uid:10078/uname:svcbvbrc
NetAppを使用してこれを動作させることができた人はいますか?
よろしくお願いします。
Bob
皆さん、こんにちは。このスレッドは興味深いですね。私はS3とSolrをよく使っています。また、[旧バージョンの] MinIOも大好きで、専用のストレージサーバーにSSDをたくさん搭載して運用していますが、これは本番環境では使用していません。
S3は多くの用途で素晴らしいですが、HTTPリクエストのように非常に遅延が大きいです。
Solrに関しては、パフォーマンスを出すために、基盤となるサーバー(Linux/UbuntuのEC2インスタンス)に十分なシステムRAMを割り当て、Solrコレクションをキャッシュする必要があると分かりました。これを行うと、iotop
で確認できるように、ディスク読み取りがゼロに減少します。
過去にはいろいろな愚かなことを試しました(たとえば、SolrノードでRAMディスクを使用するなど)。しかし、Linuxに十分な余剰RAMを与えれば、OSが自動的にSolrデータ全体をキャッシュしてくれることに気付きました。
私の作業負荷はそれほど大きくないと思います(最大のコレクションは約300万ドキュメントです。ウェブサイトは月間約1100万ページビューを処理し、一部のページはレンダリングするために10回のSolrクエリを実行しますが、非常にうまく機能しています)。ただし、約300万ドキュメントのコレクションでKNN(近傍検索)を行っています。この場合、コレクション全体をRAMに完全にキャッシュしないと、ウェブサイトの応答時間に間に合うことはありません。
これらの経験から考えると、S3オブジェクトストレージがバックアップ以外の用途で使われることは難しいと思います(S3のようなものにバックアップをスケジュールする方法については知りたいです。現在は、ドキュメントを大きなバックアップファイルに手動でコピーして、ElasticSearchにもバックアップしています)。
Derek
※旧バージョンのMinIOが好きな理由は、ファイルが変な形式で保存されないからです。これにより、NGINXサーバーがそのディレクトリ(MinIOバケットのディレクトリ)を参照するだけで動作します。新しいMinIOは独自の形式でファイルを保存しているようです。これはS3のような用途(例えば、バージョニング?詳しくは分かりません)には良いのかもしれませんが、ディスク上の実際のファイルを直接確認したり、ウェブサーバーを介してアクセスすることができないため、オンプレミスのS3 R&Dには旧バージョンのMinIOを使用しています。
Derekへ
SIP-20の内容をぜひ読んでみてください。シャードの主要なコピーはオブジェクトストアに保存されますが、各ノードのローカルディスクにも常にキャッシュされます。そしてそのローカルディスク上のデータは、仮想メモリにもキャッシュされます。そのため、速度がS3によって制限されることはなく、インデックス作成の遅延が影響する可能性がある程度です。また、データを失うことなくスケールをゼロにすることも可能です。
Jan Høydahl
トピックへ返信するには、ログインが必要です。