utf-8 - ラテン文字の代わりに使用されるキリル文字の扱い

Question

最近、ユーザーに英語のテキストを入力してもらいましたが、「a」などの文字の一部は、ラテン語の小文字 A ではなく、実際にはキリル文字の小文字 A であるため、キリル文字用に設定されたコンピューターで行われたようです。

正規化するとキリル文字が同等のラテン語に変換されると思いましたが、そうではありません（意味ではなく、表示方法のみが同等であると思います）。

これはよくある問題ですか? キリル文字用にコンピューターをセットアップしているユーザーは英語を書いているのに、代わりにキリル文字を使用している可能性がありますか?

これを一般的に見つけて適切に変換する安全な方法は何でしょうか?

score 0 · Accepted Answer

キリル文字を検出するには、正規表現一致 [\p{IsCyrillic}] を使用します。より一般的なアプローチは、ラテン語以外の文字を検索することです。一致するものがある場合は、文字を対応するラテン語に置き換える必要があります。

1 に答える 1