utf-8 - D でのバイトのデコード

Question

間違ってデコードされたテキストフラグメントがあります。cp866のようにデコードされましたが、実際にはutf-8 ( "нажал кабан на баклажан"--> "╨╜╨░╨╢╨░╨╗ ╨║╨░╨▒╨░╨╜ ╨╜╨░ ╨▒╨░╨║╨╗╨░╨╢╨░╨╜") のはずです。私はそれを修正したいと思います.Pythonでタスクを解決するコードをすでに書いています：

broken = "╨╜╨░╨╢╨░╨╗ ╨║╨░╨▒╨░╨╜ ╨╜╨░ ╨▒╨░╨║╨╗╨░╨╢╨░╨╜"
fixed = bytes(broken, 'cp866').decode('utf-8')
print(fixed) # it will print 'нажал кабан на баклажан'

ただし、最初はDでこの問題を解決しようとしていましたが、答えが見つかりませんでした。では、このタスクをDでどのように解決できるのでしょうか?

score 4 · Accepted Answer

現時点では、D にはエンコーディング間でテキストを変換するための広範なネイティブ機能がありません。

以下にいくつかのオプションを示します。

ラチェットフリークが述べたように、D にはstd.encodingがありますが、現時点では多くのエンコーディングをカバーしていません。
Windows では、 and を使用できます。これはstd.windows.charset.fromMBSz、 andtoMBSzをラップMultiByteToWideCharしWideCharToMultiByteます。
興味のあるエンコーディングをプログラムに埋め込むだけです ( example )。
iconvPOSIX では、プログラムを呼び出す( example ) か、libiconvライブラリを使用する ( D1 binding ) ことができます。

utf-8 - D でのバイトのデコード

1 に答える 1

Related

Reference