6

ElasticSearchインデックスが、英数字以外の文字のインデックス作成とクエリを正しく行っていません。具体的には、ドットとダッシュが問題を引き起こしています。

「OK牧場の決闘」という名前のドキュメントにインデックスを付けると、「OK牧場の決闘」のクエリと一致するはずです。同様に、「ウィスキー・ア・ゴーゴー」のインデックスを作成する場合、「ウィスキー・ア・ゴーゴー」と「ウィスキー・ア・ゴーゴー」に一致させたいと思います。

現在、正しいドットとダッシュを含むクエリのみがこれらのドキュメントを返します。

このソリューションによって、コンマやアポストロフィなどの他の英数字以外の文字に関する潜在的な問題も解決されることを願っています。

ElasticSearchトークンフィルターの仕事のように聞こえますが、探しているものを実行するフィルターを見つけることができませんでした。また、ElasticSearch内でこれを実行したいと思います。ESインデックスに到達する前にデータを正規化するためのカスタム文字列操作を記述したくありません。

ご協力いただきありがとうございます!

4

1 に答える 1

7

Word DelimiterTokenFilterを確認することをお勧めします。少なくとも「ウィスキー・ア・ゴーゴー」と「ウィスキー・ア・ゴーゴー」であなたが望むことをするでしょう。分析APIを使用して、その動作を事前に確認できます。

于 2012-08-29T15:16:39.253 に答える