テキスト内の分音記号やその他の文字記号を削除し、テキスト検索インデックスに適した方法で単純化する方法を探しています。
分音符号を削除するために、私はすでにこれらを見つけました:
- PHP に関する質問: 1、2
- Java に関する質問: 1、関連: 2
- バッシュに関する質問: 1
- .Net に関する質問: 1、2
- Javascript に関する質問: 1
- Python に関する質問: 1
言語に依存しない一般的なソリューションについて疑問に思っていました。(また、この参照リストは一部の人にとっては役立つかもしれません。)
分音記号を削除すると、äöüò などで機能しますが、次のことも必要です。
- φ→○
- Я → R
- Ł→L
- ɲ → ん
- æ → a (「ae」でもかまいませんが、「ae」を「a」に置き換えたいので、私の場合は「a」の方が理にかなっています)
たとえば、簡略化された名前 Royksopp のすぐ下に Röyksopp として表示されることもある Røyksopp という名前をインデックスに登録したいと考えています。または KoЯn は KoRn である必要があります。