0

Python で HTTPLIB2 パッケージを使用してダウンロードした HTML ファイルがたくさんあります。' ' は 'Â ' として表示されます。

<font color="#ff0000">02/12/2004Â </font> is showing while <font color="#ff0000">02/12/2004&nbsp;</font> is the desired format.

Python'Â 'でをに置き換えるにはどうすればよいですか? '&nbsp;'どうもありがとう!

4

3 に答える 3

1

エンコーディングの問題があります。この文字を削除しようとする代わりに、ページのエンコーディングを探してから、ファイルを読み取るときに、適切な文字エンコーディングを使用して、の代わりにcodecsモジュールを使用してください。open()

于 2011-12-22T10:18:30.757 に答える
0
filtered_content = filter(lambda x: x in string.printable, content)

これで私の問題は解決しました。ありがとうございました!

于 2010-05-27T17:25:14.070 に答える
-1
s.replace('Â ', '&nbsp;');

ただし、私は HTTPLIB2 を使用していませんが、HTML ファイルをダウンロードするときにソースが変更されている場合は、何か問題があると確信しています。デコードの問題が発生している可能性があります。Python のどのバージョンを使用していますか? Python 3 の場合、コンテンツは文字列ではなくバイト シーケンスになるため、バイトをデコードする正しいコードページを指定する必要があります。

http://code.google.com/p/httplib2/wiki/ExamplesPython3

編集: httplib2 だけを使用することに制限されていない場合は、おそらくPython 2.6 標準ライブラリの一部であるurlliburllib2、またはモジュールの使用を検討できますか?httplib

于 2010-05-27T14:15:31.477 に答える