ã§ や é のような文字列が表示される場合、通常は UTF-8 ファイルが ANSI (または類似の) 形式で読み込まれるプログラムによって開かれていることを示しています。次のような Unicode 文字:
U+00C2 サーカムフレックス付きのラテン大文字 A
U+00C3 チルダ付きのラテン大文字 A
U+0082 ここで改行を許可
U+0083 ここで改行なし
UTF-8 が使用する可変バイト方式のため、ANSI テキストに表示される傾向があります。この戦略は、ここで非常によく説明されています。
ユーザーにとっての利点は、これらの奇妙な文字の出現により、誤った変換のインスタンスを比較的簡単に見つけて置き換えることができることです。
ANSI は常に 1 文字あたり 1 バイトを使用するため、この状況は単純な検索と置換操作で処理できると思います。または、次のように、問題のあるシーケンスと目的の文字との間のテーブル マッピングを含むプログラムを使用すると、より便利になります。
“ -> “ # は開始の二重中引用符にする必要があります “
? -> ” # は終了二重中引用符でなければなりません
英語であると仮定すると、任意のテキストには、比較的少数の異なる種類の置換があります。
それが役立つことを願っています。