http://dictionary.reference.com/browse/apple?s=tのような辞書サイトからコンテンツをダウンロードしようとしています。
私が抱えている問題は、元の段落に波線や逆文字などがすべて含まれているため、ローカル ファイルを読み取ると、\x85、\xa7、\x8d などの変なエスケープ文字になってしまうことです。 .
私の質問は、これらすべてのエスケープ文字をそれぞれの UTF-8 文字に変換する方法はありますか?
Python 呼び出しコード:
import os
word = 'apple'
os.system(r'wget.lnk --directory-prefix=G:/projects/words/dictionary/urls/ --output-document=G:\projects\words\dictionary\urls/' + word + '-dict.html http://dictionary.reference.com/browse/' + word)
Windows 7 システムで wget-1.11.4-1 を使用しています (Linux の人を殺さないでください。これはクライアントの要件でした)。wget exe は Python 2.6 スクリプト ファイルで起動されています。