character-encoding - 高速 ESP 文字の正規化

Question

FAST ESP サーバーで検索アプリケーションを実行しています。今、私は文字の正規化でこの問題を抱えています。

欲しいのは「wurth」で検索して「würth」でヒットすることです。

私はesp/etc/tokenizer/tokenization.xmlで以下を設定しようとしました

 <normalizationlist name="German to Norwegian">
   <normalization description="German u with diaeresis, to Norwegian u">
      <input>x75</input> 
      <output>xFC</output> 
      <output>x75</output>
   </normalization>
  </normalizationlist>

しかしもちろん、これはすべての u を ü に変換しますが、これは役に立ちません。

これを正しい方法で構成するにはどうすればよいですか?

score 1 · Accepted Answer

解決策は、すべての「特殊文字」を同じ「通常の文字」に正規化することです。

ö -> o ø -> o å -> a ä -> a æ -> a

これは少し時間がかかりますが、うまくいきます！

score 0 · Accepted Answer

また、MS サポートから入手できるカスタム辞書をインストールして、各言語の辞書を提供することもできます。したがって、ドイツ語をインストールすると、検索エンジンは検索しようとしているものを意味する機能で理解します。ディクショナリをインストールしたら、検索クエリを有効にすることができます。また、多言語サポートのために適切な文字エンコーディングを使用して検索スキーマを正しくセットアップすることも忘れないでください。コレクション内のドキュメントが適切な文字エンコーディングでインデックス化されていない場合、トークン化とクエリ終了で行った作業は役に立ちません。

score 0 · Accepted Answer

高度なロジスティクスガイドをお読みください。文字の正規化に関する章が含まれています。ガイドの手順に従うと、すべての特殊文字が通常の文字として扱われます。したがって、über を検索すると、uber を検索した場合と同じ結果が得られます。

character-encoding - 高速 ESP 文字の正規化

3 に答える 3

Related

Reference