Python で urllib と urllib2 を使用して Web ページを開いたり読んだりしていますが、取得したテキストが読めないことがあります。たとえば、これを実行すると:
import urllib
text = urllib.urlopen('http://tagger.steve.museum/steve/object/141913').read()
print text
読めないテキストが表示されます。私はこれらの投稿を読みました:
Python urllib2 は Web ページから取得した gzip データを自動的に解凍しますか?
しかし、私の答えが見つからないようです。
よろしくお願いします。
更新:ユーザーエージェントがクローラーではなくブラウザーであることをサーバーに「納得させる」ことで問題を修正しました。
import urllib
class NewOpener(urllib.FancyURLopener):
version = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.2 (KHTML, like Gecko) Ubuntu/11.10 Chromium/15.0.874.120 Chrome/15.0.874.120 Safari/535.2'
nop = NewOpener()
html_text = nop.open('http://tagger.steve.museum/steve/object/141913').read()
返信ありがとうございます。