Learning to Rankのログでフィーチャー名を省略する

トピック作成者：ks-solruserml-bot (2024/09/01 21:22 投稿)

(The bot translated the original post https://lists.apache.org/thread/lpf0rlt15n62kszw7y29y8hhhl8fgtst into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

特徴量抽出を行う際、1つのリクエストで多くの特徴量をログに記録することが有利な場合があります。多くのリクエストを処理する際には、計算された特徴量の数と結果の数がサーバー側のパフォーマンスに大きく影響します。しかし、結果の数が多い（100や1000以上）場合、データの受信に数十msや100ms以上かかることがあります。データのサイズを削減することは重要です。

ドキュメントIDと[features]のみを取得する場合、[features]の値の順序は、保存した特徴量の順序に対応していると思われます（これはフラットなリストです）。次のようにラベルを付けたものではなく、

title=12.34,body=5.12,recency=251.1

ラベルなしで以下のように取得するオプションはありますか？

12.34,5.12,251.1

このページで、密な形式（dense）と疎な形式（sparse）のオプションがあることに気づきました。

これは若干の時間を削減するのに役立ちますが、さらにフィーチャーラベルを削除することで、もっと時間を削減できるように思われます。

これを実現する方法があるか、見逃しているものがあるのでしょうか？

ありがとうございます！
-Doug

返信投稿者：ks-solruserml-bot (2024/09/01 21:22 投稿)

こんにちは、Doug。

私たちはこの分野でしばらく作業を続けており、次の貢献として、特徴量ベクトルキャッシュ（ラベルなしの浮動小数点配列、つまり特徴量ベクトルのみをキャッシュするもの）に取り組む予定です。

まず最初に、疎な形式/密な形式およびnull値をより良く処理する方法を提供するために貢献しました（SOLR-16759やSOLR-16596など）。次に、特徴量ベクトルキャッシュの改善に向けた貢献がほぼ完了しており（現在はログ記録にのみ使用され、リランキングには使用されていません）、最終的にはキャッシュの分割に取り組む予定です（SOLR-10448）。

あなたの要望は、私たちの今後の貢献と一致していますが、残念ながら現在、一般的なスポンサーシップ/資金不足のため、この作業は一時停止しています。

貢献を再開することを望んでいますが、その間にお役に立てるようであれば、ドラフトプルリクエストを共有することが可能です。

よろしくお願いします。

Alessandro Benedetti
ディレクター @ Sease Ltd.
Apache Lucene/Solr コミッター
Apache Solr PMC メンバー

トピックへ返信するには、ログインが必要です。

トピック一覧へ戻る