ここではかなりデータ集約型のアルゴリズムに取り組んでおり、速度が最優先事項です。基本的に、非常に大きな文字列を操作する必要があります。あまり詳しく説明しなくても、これらのコード行がなくても瞬く間に機能します。
html = unicode(strip_tags(html_source), errors='ignore')
html2 = unicode(strip_tags(html_source2), errors='ignore')
各文字列をユニコードにエンコードしない場合に発生する問題は、次のような恐ろしいものになることです。
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 5747: ordinal not in range(128)
このプロセスを合理化するためにできることはありますか? ascii の範囲にない小さなデータは、私にとってはあまり重要ではありません。とにかく、文字列全体をエンコードせずにエラーをすべて無視することはできますか?
どうもありがとうございました!(私は現在python2.7.3を使用しています)