0

ここではかなりデータ集約型のアルゴリズムに取り組んでおり、速度が最優先事項です。基本的に、非常に大きな文字列を操作する必要があります。あまり詳しく説明しなくても、これらのコード行がなくても瞬く間に機能します。

html = unicode(strip_tags(html_source), errors='ignore')
html2 = unicode(strip_tags(html_source2), errors='ignore')

各文字列をユニコードにエンコードしない場合に発生する問題は、次のような恐ろしいものになることです。

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 5747: ordinal not in range(128)

このプロセスを合理化するためにできることはありますか? ascii の範囲にない小さなデータは、私にとってはあまり重要ではありません。とにかく、文字列全体をエンコードせずにエラーをすべて無視することはできますか?

どうもありがとうございました!(私は現在python2.7.3を使用しています)

4

1 に答える 1

2

次のコマンドを使用して、すべての非 ASCII 文字を取り除くことができます.decode()

your_string.decode('ascii', errors='ignore')
于 2012-12-29T17:28:34.777 に答える