ストップワードフィルターに関するヘルプが必要です

トピック作成者：ks-solruserml-bot (2024/06/22 19:08 投稿)

(The bot translated the original post https://lists.apache.org/thread/cjn973dh0n4154c5g25qtgkrw7b9c9xk into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

こんにちは、

以下の2つのクエリを試していますが、同じ結果が返るはずです。
しかし、最初のクエリにはストップワード「is」が含まれており、その結果、0件が返ってきています。
そのため、ストップワードフィルターが期待通りに機能していないように思われます。
誰かが両方のクエリのデバッグレポートを見て、何が間違っているのかアドバイスしていただけないでしょうか？
どんな助けでも感謝します。

クエリ1:

"rawquerystring":"thim day is gone",
"querystring":"thim day is gone",
"parsedquery":"(+(+DisjunctionMaxQuery(((i18n_content_ar:thim)^3.0 |
(i18n_content_en:thim)^3.0 | (i18n_label_ar:thim)^5.0 |
(i18n_label_en:thim)^5.0 | (shelf_mark:thim)^80.0 |
(content:thim)^0.04)~0.01) +DisjunctionMaxQuery(((i18n_content_ar:day)^3.0
| (i18n_content_en:day)^3.0 | (i18n_label_ar:day)^5.0 |
(i18n_label_en:day)^5.0 | (shelf_mark:day)^80.0 | (content:day)^0.04)~0.01)
+DisjunctionMaxQuery(((i18n_content_ar:is)^3.0 | (i18n_label_ar:is)^5.0 |
(shelf_mark:is)^80.0)~0.01)
+DisjunctionMaxQuery(((i18n_content_ar:gone)^3.0 |
(i18n_content_en:gone)^3.0 | (i18n_label_ar:gone)^5.0 |
(i18n_label_en:gone)^5.0 | (shelf_mark:gone)^80.0 |
(content:gone)^0.04)~0.01)) (+DisjunctionMaxQuery(((content:"thim day ?
gone"~10)^2.0)~0.01)) (+record_type:logical^15.0)
(+record_type:essay^17.0))/no_coord",
"parsedquery_toString":"+(+((i18n_content_ar:thim)^3.0 |
(i18n_content_en:thim)^3.0 | (i18n_label_ar:thim)^5.0 |
(i18n_label_en:thim)^5.0 | (shelf_mark:thim)^80.0 |
(content:thim)^0.04)~0.01 +((i18n_content_ar:day)^3.0 |
(i18n_content_en:day)^3.0 | (i18n_label_ar:day)^5.0 |
(i18n_label_en:day)^5.0 | (shelf_mark:day)^80.0 | (content:day)^0.04)~0.01
+((i18n_content_ar:is)^3.0 | (i18n_label_ar:is)^5.0 |
(shelf_mark:is)^80.0)~0.01 +((i18n_content_ar:gone)^3.0 |
(i18n_content_en:gone)^3.0 | (i18n_label_ar:gone)^5.0 |
(i18n_label_en:gone)^5.0 | (shelf_mark:gone)^80.0 |
(content:gone)^0.04)~0.01) (+((content:"thim day ? gone"~10)^2.0)~0.01)
(+(record_type:logical)^15.0) (+(record_type:essay)^17.0)",
"facet-debug":{
"elapse":0,

クエリ2:

"rawquerystring":"thim day gone",
"querystring":"thim day gone",
"parsedquery":"(+(+DisjunctionMaxQuery(((i18n_content_ar:thim)^3.0 |
(i18n_content_en:thim)^3.0 | (i18n_label_ar:thim)^5.0 |
(i18n_label_en:thim)^5.0 | (shelf_mark:thim)^80.0 |
(content:thim)^0.04)~0.01) +DisjunctionMaxQuery(((i18n_content_ar:day)^3.0
| (i18n_content_en:day)^3.0 | (i18n_label_ar:day)^5.0 |
(i18n_label_en:day)^5.0 | (shelf_mark:day)^80.0 | (content:day)^0.04)~0.01)
+DisjunctionMaxQuery(((i18n_content_ar:gone)^3.0 |
(i18n_content_en:gone)^3.0 | (i18n_label_ar:gone)^5.0 |
(i18n_label_en:gone)^5.0 | (shelf_mark:gone)^80.0 |
(content:gone)^0.04)~0.01)) (+DisjunctionMaxQuery(((content:"thim day
gone"~10)^2.0)~0.01)) (+record_type:logical^15.0)
(+record_type:essay^17.0))/no_coord",
"parsedquery_toString":"+(+((i18n_content_ar:thim)^3.0 |
(i18n_content_en:thim)^3.0 | (i18n_label_ar:thim)^5.0 |
(i18n_label_en:thim)^5.0 | (shelf_mark:thim)^80.0 |
(content:thim)^0.04)~0.01 +((i18n_content_ar:day)^3.0 |
(i18n_content_en:day)^3.0 | (i18n_label_ar:day)^5.0 |
(i18n_label_en:day)^5.0 | (shelf_mark:day)^80.0 | (content:day)^0.04)~0.01
+((i18n_content_ar:gone)^3.0 | (i18n_content_en:gone)^3.0 |
(i18n_label_ar:gone)^5.0 | (i18n_label_en:gone)^5.0 |
(shelf_mark:gone)^80.0 | (content:gone)^0.04)~0.01) (+((content:"thim day
gone"~10)^2.0)~0.01) (+(record_type:logical)^15.0)
(+(record_type:essay)^17.0)",
"facet-debug":{
"elapse":1,

よろしくお願いします。
Arif

返信投稿者：ks-solruserml-bot (2024/06/22 19:08 投稿)

こんにちは、

インデックスとクエリの両方でアナライザーで "is" がストップワードとして定義されていることを確認していますか？

Dominique

返信投稿者：ks-solruserml-bot (2024/06/22 19:09 投稿)

こんにちは、Dominiqueさん

お返事いただきありがとうございます。
"is" は _en（英語）フィールドではストップワードとして定義されていますが、_ar（アラビア語）ではカスタムアナライザーが使用されており、ストップワードの処理については明確ではありません。
これについて調査してみます。

改めてありがとうございます。
Arif

トピックへ返信するには、ログインが必要です。

トピック一覧へ戻る