ここ数時間、ロシア語のタブ区切りの txt ファイルについて頭を悩ませていました。これがどのように見えるかです:
CODE AD_GROUP KEYWORD MATCH_TYPE
009966 Автостраховка автостраховка Broad
009965 Автостраховка страховкаавто Broad
009964 Автостраховка страховка автомобиля Broad
目標は、txt ファイルを解析し、今のところ各キーワードを個別に出力することです。
これまでのところ、私は持っています:
f = open("struct.txt",encoding="UTF-8",errors='strict')
for line in f:
vals = line.split("\t")
print(vals[2])
f.close()
しかし、次のエラーが発生し続けます。
UnicodeDecodeError: 'utf-8' コーデックは位置 0 のバイト 0xff をデコードできません: 無効な開始バイト
また、各リストの長さを確認するために len(vals) を実行すると、次のようになります。
私は Python3.3 と mac を使用しています。
最後に、Mac のコマンド ラインでキリル文字が表示されないのは問題ではないと思います。以前は問題なく表示されていました (Windows の西部バージョンでは失敗するようです)。
私が間違っていることを教えてください。
ありがとうございました!