ネットワーク越しのインデキシング速度について

トピック作成者:孤独なエンジニア (2024/06/19 10:20 投稿)
4
OpenOpen

現在、オンプレミス環境にてスタンドアロンのSolrを用いて複数のECサイトを構築しております。これらのシステムを統合し、最新のSolrCloudに置き換えて再構築するにあたり、KandaSearchの使用を検討しております。

現在、Community版を用いて導入検討を行っている段階ですが、一点気になることがございます。

それはインデキシングの速度についてです。ここで言うインデキシングの速度とは、Solrのインデキシング速度(能力)ではなく、ネットワーク越しのインデキシング速度についてです。

現在のシステムでは、インデキシングの対象データがSolrと同じイントラネット上に置かれているため、インデキシング速度に問題はございません。しかし、KandaSearchの場合、インターネット越しに自社にある対象データをインデキシングすることとなり、その速度に懸念がございます。

可能であれば、Solrと同じイントラネット上に対象データを一時的に配置し、そのデータに対してインデキシングを行う方法を取りたいと考えておりますが、何か良い方法はございますでしょうか?
または、SolrCloud方式に移行することで、Solrのインデキシング速度(能力)が飛躍的に向上し、ネットワーク越しのインデキシング速度が多少遅くても、インデキシング全体の速度を担保できるという理解でよろしいでしょうか?

何卒、よろしくお願い申し上げます。

返信投稿者:kojisays (2024/06/19 12:17 投稿)

しかし、KandaSearchの場合、インターネット越しに自社にある対象データをインデキシングすることとなり、その速度に懸念がございます。

ご懸念はごもっともです。

SolrCloud方式に移行することで、Solrのインデキシング速度(能力)が飛躍的に向上し、ネットワーク越しのインデキシング速度が多少遅くても、インデキシング全体の速度を担保できるという理解でよろしいでしょうか?

ネットワークがボトルネックになってインデクシングが遅い場合、SolrCloudでそれが改善する、ということは考えにくいと思います。

可能であれば、Solrと同じイントラネット上に対象データを一時的に配置し、そのデータに対してインデキシングを行う方法を取りたいと考えておりますが、何か良い方法はございますでしょうか?

Solrと同一プロジェクト内に汎用サーバーを配置し、そのサーバーからSolrにインデクシングを行う、という方法があります。

また、前処理やセマンティック検索のためのベクトル計算が必要なデータの場合、KandaSearchのAPIを用いてS3に一度ファイルをアップロードし、汎用サーバー上に配置したインデクシングパイプラインをタスクAPIを用いて実行する、ということも行います。

返信投稿者:孤独なエンジニア (2024/06/19 16:14 投稿)

kojisays様

早速のご回答、誠にありがとうございます。

Solrと同一プロジェクト内に汎用サーバーを配置し、そのサーバーからSolrにインデクシングを行う、という方法があります。

汎用サーバーというオプションがあるのですね。この方法を用いることで、現在のイントラネット環境でのインデキシングと同様の環境を構築できると考えました。ただ、汎用サーバーの作成はKandaSearchチームにて行います(お客様は作成・削除ができません)ということですが、この汎用サーバーを個別に依頼することなく、同様の効果を得ることができるというのが以下の内容でしょうか?
また、この場合の汎用サーバーは個別に作成していただくものではなく、プロジェクトに初めから用意された汎用サーバーのようなものと理解しておりますが、正しいでしょうか?

また、前処理やセマンティック検索のためのベクトル計算が必要なデータの場合、KandaSearchのAPIを用いてS3に一度ファイルをアップロードし、汎用サーバー上に配置したインデクシングパイプラインをタスクAPIを用いて実行する、ということも行います。

この汎用サーバーへの対象データのアップロードは以下のコマンドで行い、

aws s3 cp foo.txt s3://kandasearch-prod-backups/{project-id}/user/ai/foo.txt

その後、タスクAPIを用いてアップロードされたデータに対してインデキシングを行うという理解でよろしいでしょうか?

何卒よろしくお願い申し上げます。

返信投稿者:kojisays (2024/06/20 23:45 投稿)

上記の「汎用サーバー」はすべて 汎用サーバーの作成はKandaSearchチームにて行います(お客様は作成・削除ができません) の汎用サーバーです。それ以外の点はご理解のとおりです。

・・・これで回答になってますでしょうか。

返信投稿者:孤独なエンジニア (2024/06/21 08:54 投稿)

上記の「汎用サーバー」はすべて 汎用サーバーの作成はKandaSearchチームにて行います(お客様は作成・削除ができません) の汎用サーバーです。それ以外の点はご理解のとおりです。

・・・これで回答になってますでしょうか。

はい、理解いたしました。

ご指導いただき、誠にありがとうございました。

トピックへ返信するには、ログインが必要です。

KandaSearch

Copyright © 2006-2024 RONDHUIT Co, Ltd. All Rights Reserved.

投稿の削除

この投稿を削除します。よろしいですか?