次のように、ヘッダーを送信して、サイトをサーフィンしているユーザーだとサイトに認識させることにより、Web サイトから HTML を取得しています。
def page(goo):
import fileinput
import sys, heapq, array, urllib
import BeautifulSoup
from BeautifulSoup import BeautifulSoup
import re
from urllib import FancyURLopener
class MyOpener(FancyURLopener):
version = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11'
myopener = MyOpener()
filehandle = myopener.open(goo)
return filehandle.read()
page=page(WebSite)
これは、Google や Wikipedia を含むほとんどの Web サイトで完全に機能しますが、Tmart.com では機能しません。どういうわけか、Tmart はそれが Web ブラウザーではないことがわかり、エラーを返します。どうすればこれを修正できますか?