0

外来語のリスト (utf8) からアクセントを削除する Linux プログラムがあるかどうか知っていますか? スペイン語、チェコ語、フランス語のように。例えば:

administrátoři (チェコ語) administratori
français (フランス語) francais
niñez (スペイン語) ninez など

sed を使用して手動で実行できることはわかっていますが、多くの言語で作業していることを考えると、比較的時間がかかります。まさにそれができるプログラムがすでに存在するのではないかと思いました。

4

2 に答える 2

2

あなたが望むのはUnicode 分解と呼ばれるものです- Unicode 合成の逆のプロセスです (基本文字と分音記号を組み合わせる)。関連する SO の質問がいくつかあります。

  1. JavaScript
  2. ActionScript
  3. パイソン

開始点として使用できます。

Python リポジトリにunicodedata.decompositionは、分解されたマッピングを返すものがあります。

あなたのシステムもおそらく持ってiconvおり、適切な正規化により、あなたもそこにたどり着くかもしれません!

于 2012-06-14T05:09:54.803 に答える