python - コーデックを使用して1つの言語からutf-8でエンコードされたドキュメントに変換するにはどうすればよいですか？

Question

つまり、基本的に私はまだPythonにかなり慣れておらず、utf-8でエンコードされたドキュメントに変換しようとしている日本語のドキュメントがあるという問題があります。私がこれをするとき、私は私が見返りに何を得るべきか本当にわかりません。現在持っているプログラムを実行すると、すべてが削除され、utf-8でエンコードされた空白のドキュメントが残ります。これが私が持っているものです、どんな助けでも大歓迎です。

編集：タイプミスでごめんなさい、元のエンコーディングを修正しました。Shift-jisです。

import codecs

codecs.open("rshmn10j.txt", 'r', encoding='shift-jis')

newfile = codecs.open("rshmn10j.txt", 'w', encoding='utf-8')
newfile.write(u'\ufeff')
newfile.close()

score 2 · Accepted Answer

ドキュメントをエンコーディング「x」からエンコーディング「utf8」に変換しようとしている場合は、最初に、ドキュメントがエンコードされているエンコーディングを使用してドキュメントを読み取る必要があります。

import codecs

original_document_encoding = "shift-jis" # common japanese encoding.
with codecs.open("rshmn10j.txt", 'r', encoding=original_document_encoding) as in_f:
    unicode_content = in_f.read()

with codecs.open("rshmn10j.out.txt", 'w', encoding='utf-8') as out_f:
    out_f.write(unicode_content)

withここでは、ブロックが終了したときにファイルを自動的に閉じるために使用されます。

python - コーデックを使用して1つの言語からutf-8でエンコードされたドキュメントに変換するにはどうすればよいですか？

1 に答える 1

Related

Reference