1

私は多言語データセットと、このデータセットのトークン化を非常にうまく処理する標準アナライザーを持っています。唯一の悪い点は、@、#、: などの特殊文字が削除されることです。標準のトークナイザーを使用して特殊文字を検索できる方法はありますか?

コンボ アナライザー プラグインを調べましたが、期待どおりに動作しませんでした。明らかに、アナライザーの組み合わせは、トークン フィルターのようにチェーンで動作しません。それらは独立して動作するため、私にとっては役に立ちません。また、トークン化する前にデータを処理するために char マッピング フィルターを調べましたが、「type_table」を指定して特殊文字を ALPHANUM に変換できる単語区切りトークン フィルターのようには機能しません。ある単語を別の単語にマップするだけです。その結果、特殊文字を検索できなくなります。また、パターン アナライザーも調べました。これは特殊文字には有効ですが、多言語データ セットにはお勧めできません。

この問題を解決するために、誰かが私を正しい方向に向けることができますか? 前もって感謝します!

4

0 に答える 0