elasticsearch - Elasticsearch で標準トークナイザーを構成する方法

翻译自：https://stackoverflow.com/questions/18524351 2013-08-30T03:17:18.020

1740 次

私は多言語データセットと、このデータセットのトークン化を非常にうまく処理する標準アナライザーを持っています。唯一の悪い点は、@、#、: などの特殊文字が削除されることです。標準のトークナイザーを使用して特殊文字を検索できる方法はありますか?

コンボアナライザープラグインを調べましたが、期待どおりに動作しませんでした。明らかに、アナライザーの組み合わせは、トークンフィルターのようにチェーンで動作しません。それらは独立して動作するため、私にとっては役に立ちません。また、トークン化する前にデータを処理するために char マッピングフィルターを調べましたが、「type_table」を指定して特殊文字を ALPHANUM に変換できる単語区切りトークンフィルターのようには機能しません。ある単語を別の単語にマップするだけです。その結果、特殊文字を検索できなくなります。また、パターンアナライザーも調べました。これは特殊文字には有効ですが、多言語データセットにはお勧めできません。

この問題を解決するために、誰かが私を正しい方向に向けることができますか? 前もって感謝します！

elasticsearch - Elasticsearch で標準トークナイザーを構成する方法

0 に答える 0

Related

Reference