重複を含むMoreLikeThisの使い方

トピック作成者:ks-solruserml-bot (2024/08/11 16:52 投稿)
3
CloseClose

(The bot translated the original post https://lists.apache.org/thread/8l04dqcgmy2ls2z80xj8dcl10k2cdyx3 into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

こんにちは、皆さん

Solr MoreLikeThisを使用して推薦システムを構築したいと思っています。私は書誌データ、つまり書籍を扱っています。同じ書籍の異なる版の複数の記録があります。特定の書籍について、MLTはその書籍の異なる版をすべて返しますが、これはユーザーの視点から見ると新しいコンテンツではありません。異なる版は他のアプリケーションには重要なので、記録を重複排除することはできません。

これを回避する方法はありますか?すべての版で共通の書籍のタイトルを使用して、MLT結果から重複をフィルタリングすることができるかもしれません。

ご協力ありがとうございます。

返信投稿者:ks-solruserml-bot (2024/08/11 16:53 投稿)

こんにちは、Tom。

あなたがどの種類のMLT(MoreLikeThis)を指しているのかはっきりしません。ハンドラー、クエリパーサー、またはコンポーネントのどれでしょうか。

一般的に、重複排除には二つのオプションがあります:

  • クエリタイム:フィールドグルーピングまたはフィールドコラプシング
  • インデックスタイム:
    • MLTクエリをタイトルを持つ親に限定し、版は日付などを持つ子にすることができます。
    • または、MLTクエリを各タイトルの最新の版のみにフィルタリングすることができます。これには、インデックス時に最新フラグを設定し、フィルタリングに使用します。
    --
    よろしくお願いします、
    Mikhail Khludnev
返信投稿者:ks-solruserml-bot (2024/08/11 16:53 投稿)

Mikhail の良い洞察に続いて、

おそらく、More Like This Query Parser を使用し、その後フィールドでのグルーピング/フィールドコラプシングを行うことをお勧めします。これで問題が解決するはずです!

もし、より高度な要件がある場合は、どうぞお知らせください!

よろしくお願いします。

Alessandro Benedetti
ディレクター @ Sease Ltd.
Apache Lucene/Solr コミッター
Apache Solr PMC メンバー

返信投稿者:ks-solruserml-bot (2024/08/11 16:53 投稿)

最近のフラグは非常に賢い方法で、他のアプリケーションや状況でも使用できます。データセットを迅速に再インデックスできるのであれば、すぐにでもその方法を試してみるでしょう。

トピックへ返信するには、ログインが必要です。

KandaSearch

Copyright © 2006-2024 RONDHUIT Co, Ltd. All Rights Reserved.

投稿の削除

この投稿を削除します。よろしいですか?