2

テキスト内の分音記号やその他の文字記号を削除し、テキスト検索インデックスに適した方法で単純化する方法を探しています。

分音符号を削除するために、私はすでにこれらを見つけました:

  • PHP に関する質問: 12
  • Java に関する質問: 1、関連: 2
  • バッシュに関する質問: 1
  • .Net に関する質問: 12
  • Javascript に関する質問: 1
  • Python に関する質問: 1

言語に依存しない一般的なソリューションについて疑問に思っていました。(また、この参照リストは一部の人にとっては役立つかもしれません。)

分音記号を削除すると、äöüò などで機能しますが、次のことも必要です。

  • φ→○
  • Я → R
  • Ł→L
  • ɲ → ん
  • æ → a (「ae」でもかまいませんが、「ae」を「a」に置き換えたいので、私の場合は「a」の方が理にかなっています)

たとえば、簡略化された名前 Royksopp のすぐ下に Röyksopp として表示されることもある Røyksopp という名前をインデックスに登録したいと考えています。または KoЯn は KoRn である必要があります。

4

2 に答える 2

0

Python 固有の質問では、少なくとも分音符号を削除するために提示された 1 つの一般的な解決策がありました。

  • Unicode 文字列を正規化された長い形式に変換します (文字と分音記号は別の文字で)
  • Unicode タイプが「diacritic」であるすべての文字を削除します

ただし、これは ø では機能しません。

于 2012-11-24T15:06:56.633 に答える