python - ファイルから読み取ってから再度書き出すと、漢字が表示されます

Question

ファイル内のすべての行を読み取ってから、再度書き出しています。これを行うと、書き出したファイルはほとんど漢字になってしまいます。どの行もまったく変更していません。これは私のPythonコードです:

#test.py
import os, sys, time
import getopt

if __name__=='__main__':
    testFile = None
    try:
        optlist, args = getopt.getopt(sys.argv[1:],"",["file="])
    except Exception, e:
        print e
        sys.exit(1)
    for opt, arg in optlist:
        if opt == '--file':
            testFile = arg.strip()

    print testFile
    if os.path.isfile(testFile):
        f = open(testFile, 'r')
        lines = f.readlines()
        f.close()
        f = open(testFile, 'w')
        for line in lines:
            f.write(line)
        f.close()

これは、このコードをテストしている元のファイルです。

param($Identity = "")


if($_INITIALIZATION_isLoaded -ne $true){
    #load initialization script
    . ((split-path -parent $myInvocation.InvocationName) + "\stuff.ps1")
}

私のファイルが書き込まれた後、これはファイルの内容です：

param($Identity = "")

਀ഀഊ

਀椀昀⠀␀开䤀一䤀吀䤀䄀䰀䤀娀䄀吀䤀伀一开椀猀䰀漀愀搀攀搀 ⴀ渀攀 ␀琀爀甀攀⤀笀ഀഊ #load initialization script

਀ऀ⸀ ⠀⠀猀瀀氀椀琀ⴀ瀀愀琀栀 ⴀ瀀愀爀攀渀琀 ␀洀礀䤀渀瘀漀挀愀琀椀漀渀⸀䤀渀瘀漀挀愀琀椀漀渀一愀洀攀⤀ ⬀ ∀尀猀琀甀昀昀⸀瀀猀㄀∀⤀ഀഊ}

Python スクリプトを実行するコマンドラインステートメントは次のとおりです。

python test.py --file="test.txt"

Windows 7 で Python 2.7 を使用しています。何が原因で、どのように修正すればよいですか? ありがとう。

編集：

スクリプトにa を追加するprint linesと、次のようになります。

['\xfe\xff\x00p\x00a\x00r\x00a\x00m\x00(\x00$\x00I\x00d\x00e\x00n\x00t\x00i\x00t\x00y\x00 \x00=\x00 \x00"\x00"\x00)\x00\r\x00\n', '\x00\r\x00\n', '\x00\r\x00\n'
, '\x00i\x00f\x00(\x00$\x00_\x00I\x00N\x00I\x00T\x00I\x00A\x00L\x00I\x00Z\x00A\x00T\x00I\x00O\x00N\x00_\x00i\x00s\x00L\x00o\x00a\x00d\x00e\x00d\x00 \x00-\x00n\x
00e\x00 \x00$\x00t\x00r\x00u\x00e\x00)\x00{\x00\r\x00\n', '\x00\t\x00#\x00l\x00o\x00a\x00d\x00 \x00i\x00n\x00i\x00t\x00i\x00a\x00l\x00i\x00z\x00a\x00t\x00i\x00o
\x00n\x00 \x00s\x00c\x00r\x00i\x00p\x00t\x00\r\x00\n', '\x00\t\x00.\x00 \x00(\x00(\x00s\x00p\x00l\x00i\x00t\x00-\x00p\x00a\x00t\x00h\x00 \x00-\x00p\x00a\x00r\x0
0e\x00n\x00t\x00 \x00$\x00m\x00y\x00I\x00n\x00v\x00o\x00c\x00a\x00t\x00i\x00o\x00n\x00.\x00I\x00n\x00v\x00o\x00c\x00a\x00t\x00i\x00o\x00n\x00N\x00a\x00m\x00e\x0
0)\x00 \x00+\x00 \x00"\x00\\\x00s\x00t\x00u\x00f\x00f\x00.\x00p\x00s\x001\x00"\x00)\x00\r\x00\n', '\x00}\x00\r\x00\n']

score 13 · Accepted Answer

元のファイルはUTF-16であり、1バイトがどこかにドロップされているため、すべての文字が1バイトずれています。

$ charinfo "䤀一䤀吀"
U+4900 CJK UNIFIED IDEOGRAPH-4900
U+4E00 CJK UNIFIED IDEOGRAPH-4E00
U+4900 CJK UNIFIED IDEOGRAPH-4900
U+5400 CJK UNIFIED IDEOGRAPH-5400
$ charinfo "INIT"
U+0049 LATIN CAPITAL LETTER I
U+004E LATIN CAPITAL LETTER N
U+0049 LATIN CAPITAL LETTER I
U+0054 LATIN CAPITAL LETTER T

codecs.open()トランスコーディングの問題を処理するために使用することを検討してください。

python - ファイルから読み取ってから再度書き出すと、漢字が表示されます

1 に答える 1

Related

Reference