次を使用して、ヘブライ文字を含むWebページを読みました。
response = ('').join(opener.open(url).readlines())
私が得た結果はまちまちで、一部の文字は私が処理できるユニコードとして戻ってきます。
一部の応答が文字化けしているようです。認識できないフォーマットで。受信したテキストの例は次のとおりです。שלך
より正確には、次のようになります(スニペットのみ...):
<h3 class="_52r al aps">About גדי</h3><div>שלך ....</div>
div間のテキストがスクランブルされているようです。Unicodeに変換できますか?