Learning to Rankのログでフィーチャー名を省略する
(The bot translated the original post https://lists.apache.org/thread/lpf0rlt15n62kszw7y29y8hhhl8fgtst into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)
特徴量抽出を行う際、1つのリクエストで多くの特徴量をログに記録することが有利な場合があります。多くのリクエストを処理する際には、計算された特徴量の数と結果の数がサーバー側のパフォーマンスに大きく影響します。しかし、結果の数が多い(100や1000以上)場合、データの受信に数十msや100ms以上かかることがあります。データのサイズを削減することは重要です。
ドキュメントIDと[features]のみを取得する場合、[features]の値の順序は、保存した特徴量の順序に対応していると思われます(これはフラットなリストです)。次のようにラベルを付けたものではなく、
title=12.34,body=5.12,recency=251.1
ラベルなしで以下のように取得するオプションはありますか?
12.34,5.12,251.1
このページで、密な形式(dense)と疎な形式(sparse)のオプションがあることに気づきました。
これは若干の時間を削減するのに役立ちますが、さらにフィーチャーラベルを削除することで、もっと時間を削減できるように思われます。
これを実現する方法があるか、見逃しているものがあるのでしょうか?
ありがとうございます!
-Doug
トピックへ返信するには、ログインが必要です。