私が使用している検索アプリケーションでは、ドキュメントの性質上、ユーザーが検索用語に (関連する) 句読点を頻繁に使用しています。これにより、結果の見積もりが実際のフィルター処理された結果の数とは大きく異なることがよくあります。
実行しようとしている検索の性質を知っているので、それを反映するようにユニバーサル インデックスを構成することです。この場合、句読点を区別しない検索を実行したくないので、用語リストを作成する目的で句読点文字を「単語文字」として含めるように ML を構成すると、推定値が実際の一致とより密接に一致するようになります。
そのようにユニバーサルインデックスを構築するようにMLを構成する方法を見つけることができませんでした(「句読点に敏感な高速検索」オプションがあると思います)。句読点に敏感な照合を使用して単語辞書を作成しようとさえしましたが、ML がそれを用語リストの生成を構成する方法のヒントとして使用することを期待していましたが、さいころはありませんでした。
理想的な世界では、2 つのターム リストを構成できます。1 つは句読点を区別し、もう 1 つはそうではありませんが、この質問の目的のためには、2 つの間で選択するだけで十分です。
このようなことは可能ですか?