先住民族の言語をインデックスするためのアプローチは?

トピック作成者:ks-solruserml-bot (2024/06/04 22:10 投稿)
2
CloseClose

(The bot translated the original post https://lists.apache.org/thread/ctpyczs54yndmcxcndfr6qrxdhgrgcj4 into Japanese and reposted it under Apache License 2.0. The copyright of posted content is held by the original poster.)

私はSolrで英語やフランス語をインデックスするのに慣れていますが、(カナダの)先住民族のファーストネーションズの言語をインデックスしたりクエリを実行する際のヒントを持っている方はいらっしゃいますか?言語によっては、音節文字(https://en.wikipedia.org/wiki/Canadian_Aboriginal_syllabics)やアメリカ音声記号(https://en.wikipedia.org/wiki/Americanist_phonetic_notation)で書かれることがあります。

Peter

返信投稿者:ks-solruserml-bot (2024/06/04 22:10 投稿)

こんにちは、Peter。

これは非常に興味深い問題ですね。解決策がリストにフィードバックされるのを見てみたいです。

おそらく最善のアプローチは、Solrに同梱されているicu4jライブラリを調べることです。これはsolrconfig.xmlで有効にする必要があります。少し説明がありますが、以下のリンクをご覧ください:

その後は、巨人の肩に立つということになります。実際のサポートを追跡するには、ICU4JはInternational Components for Unicodeの実装であり、Unicodeを実装しています。あなたが言及する言語をサポートしているようです:

これは、単語や文の境界(あなたが求めているものだと思います)がUnicodeに含まれており、したがってICUにも、ICU4jにも、Solrにも含まれていることを意味します。

これにより、有効な魔法の呼び出しに戻ります。具体的な呼び出しは、解決しようとしている検索問題の正確な内容と、言語/ロケールのコード/名前を理解することに依存します。

タイ語のテキストに対する音声検索のデモを行ったことがあります。非常に昔のことなので、コピー/ペーストはできませんが、依然として関連しています。以下は私のデモの抜粋です:
GitHub: solr-thai-test

<!--
インデックス作成時:
1) タイ語テキストを組み込みのルール+辞書でトークン化
2) 特殊なアクセントを付けてラテン文字にマッピング
3) トーンマークを削除(誰も使用しないため)
4) 英語での可能な代替スペリングに一致するために音声(BMF)広げを行う

クエリ時には、このフィールドタイプがタイ語のクエリと一致するのを望みません(BMFFはそれには少し積極的すぎます)。したがって、英語固有のクエリチェーンを使用します。
-->
<fieldType name="thai_english" class="solr.TextField">
  <analyzer type="index">
    <tokenizer class="solr.ICUTokenizerFactory"/>
    <filter class="solr.ICUTransformFilterFactory" id="Thai-Latin" />
    <filter class="solr.ICUTransformFilterFactory" id="NFD; [:Nonspacing Mark:] Remove; NFC" />
    <filter class="solr.BeiderMorseFilterFactory" />
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory" />
    <filter class="solr.LowerCaseFilterFactory" />
    <filter class="solr.BeiderMorseFilterFactory" />
  </analyzer>
</fieldType>

これがお役に立てば幸いです。
Alex

P.S. 進展があり、行き詰まってしまった場合は、直接連絡していただいても構いません。私はモントリオールに住んでおり、この質問には共感します。

返信投稿者:ks-solruserml-bot (2024/06/04 22:11 投稿)

+1でICUに賛成ですし、フォローアップにも興味があります。もし翻字があなたのケースで役立つ可能性があるなら、標準で提供されている翻字ID(ここ)をざっと見ましたが、あなたが興味を持っているスクリプトに関するものはなさそうでした(ただし、正直なところ何を探すべきかよくわかっていなかったので、自分で確認することをお勧めします)。もしこれらのスクリプトに対する翻字が必要で、標準の実装が見つからない場合には、カスタム翻字ルールファイルを書く、ロードする、登録する、使用するのが初めに思ったよりも簡単かもしれないこともお伝えしておきます。実際に試してみたことはありませんが、LUCENE-8972の作業中にその可能性が思い浮かびましたので、このアイデアを共有させていただきます。カスタム翻字に取り組むことを決めたら、気軽に連絡してください。進め方についていくつか初歩的なアイデアを持っています。

Michael

トピックへ返信するには、ログインが必要です。

KandaSearch

Copyright © 2006-2024 RONDHUIT Co, Ltd. All Rights Reserved.

投稿の削除

この投稿を削除します。よろしいですか?