python - Python エンコーディングによってアプリケーションが本当に遅くなる

Question

ここではかなりデータ集約型のアルゴリズムに取り組んでおり、速度が最優先事項です。基本的に、非常に大きな文字列を操作する必要があります。あまり詳しく説明しなくても、これらのコード行がなくても瞬く間に機能します。

html = unicode(strip_tags(html_source), errors='ignore')
html2 = unicode(strip_tags(html_source2), errors='ignore')

各文字列をユニコードにエンコードしない場合に発生する問題は、次のような恐ろしいものになることです。

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 5747: ordinal not in range(128)

このプロセスを合理化するためにできることはありますか? ascii の範囲にない小さなデータは、私にとってはあまり重要ではありません。とにかく、文字列全体をエンコードせずにエラーをすべて無視することはできますか?

どうもありがとうございました！（私は現在python2.7.3を使用しています）

score 2 · Accepted Answer

次のコマンドを使用して、すべての非 ASCII 文字を取り除くことができます.decode()。

your_string.decode('ascii', errors='ignore')

1 に答える 1