1029 Czechなど、特定のロケールですべての文字コードを含むテキストファイルを生成するにはどうすればよいですか。基本的に、アルファベットに存在するすべての文字のリストを生成したいですか?
3 に答える
私はPython +美しいスープでスクリプトを書き、それらすべてを取得します:
これが Windows ロケールの場合は、32 から 255 までのすべてのバイトを含むファイルを生成するだけです。ロケールのバイト コードは同じです。各バイトを異なる方法で解釈するだけです。リンクについてはこちらのページをご覧ください。
例: バイト 0xa5 は、チェコ語のコードページ (1250) では「Ą」を表し、ドイツ語のコードページ (1252 別名 ISO-Latin-1) では「¥」を表します。
[編集] これは、1 バイトが正確に 1 文字にマップされる Unicode 以前のロケールでのみ機能することに注意してください。1 文字あたり 2 バイト以上を必要とするアジアのロケールでは機能しません。
CLDR(Common Locale Data Repository、http://cldr.unicode.org/)には、その情報が含まれています。
しかし、Unicodeですべてを処理するのであれば、気にする理由は本当にありません。欧州連合には現在、西ヨーロッパ、東ヨーロッパ、トルコ語、バルト文字、ギリシャ文字、キリル文字など、いくつかの「従来の」コードページで文字を使用する加盟国があります。Unicodeが唯一の方法です。