エンコードしますか?

翻译自：https://stackoverflow.com/questions/18866180 2013-09-18T07:25:33.290

316 次

私はurllib2を使用してWebサイトのソースコードを取得し、それをbas64でエンコードされた文字列の正規表現でフィルタリングし、それを繰り返して一致を関数に渡します:

def Base64Decoder(match):  
    curMatch = match.group().decode('utf-8', errors='ignore')  
    decoded = base64.b64decode(curMatch)   
    return decoded

Base64Decoder の戻り値を出力すると、一部の文字が間違っています。正しくフィルター処理するにはどうすればよいですか? 次のような意味不明な文字を見たくありません。

シグウィン Linux

ウェブサイトのエンコーディングは utf-8 ですが、urllib の戻り値は unicode のようですか?

編集：ソースコードは次のようになります（生）

<td style="text-align:left; font-weight:bold;"><script type="text/javascript">document.write(Base64.decode("MzEuMTMuMTcuMjE0"))</script></td>

フィルタリングされた文字列はBase64.decode("MzEuMTMuMTcuMjE0ストライプ化されますMzEuMTMuMTcuMjE0

python - 可能性のあるエラーを無視し、間違った文字を削除/置換する方法をデコード/エンコードしますか?

1 に答える 1

Related

Reference