私のねじれた方法でエラーを教えてください。私はかなり長い間、twisted を使用して高速な Web スクレーパーを構築するのに苦労してきました。Queue を使用して従来のスレッド化されたスクレーパーを構築するのは簡単なことであり、これまでのところ、非常に高速です。それでもツイストを比べたい!Webscraper の目的は、ギャラリーから画像 () リンクを再帰的に見つけ、それらの画像リンクに接続して画像 () をスクレイピングしたり、後で解析するためにさらに画像リンクを収集したりすることです。コードを以下に示します。ほとんどの関数は辞書を渡すので、各リンクからのすべての情報をより概念的にパケット化できます。私は、ブロックしているコード (parsePage 関数) をスレッド化して、html ページ、ヘッダー情報、および画像を取得するために「非同期コード」を使用しようとしています (またはそう信じています)。
これまでの私の主な問題は、getLinkHTML または getImgHeader errback からトレースバックされた大量の「ユーザータイムアウトにより接続エラーが発生しました」ということでした。セマフォを使用して作成する接続の数を調整しようとしましたが、接続が殺到していると考えて、コードの一部を無駄にスリープ状態にすることさえありました。また、スクレーパーを実行してから約 30 秒後にタイムアウト エラーが生成され、connectTCP には 30 秒のタイムアウトがあるため、問題は reactor.connectTCP から発生する可能性があると考えました。ただし、connectTCP コードをツイスト モジュールから 60 秒に変更しましたが、実行後約 30 秒でタイムアウト エラーが発生しました。もちろん、同じサイトを従来のスレッドスクレーパーでスクレイピングします。正常に動作し、はるかに高速に動作します。
それで、私は何を間違っていますか?また、私は独学であり、コード全体にもランダムな質問があるため、一般的なコードについて自由に批評してください。どんなアドバイスでも大歓迎です!
from twisted.internet import defer
from twisted.internet import reactor
from twisted.web import client
from lxml import html
from StringIO import StringIO
from os import path
import re
start_url = "http://www.thesupermodelsgallery.com/"
directory = "/home/z0e/Pictures/Pix/Twisted"
min_img_size = 100000
#maximum <a> links to get from main gallery
max_gallery_links = 500
#maximum <a> links to get from subsequent gallery/pages
max_picture_links = 35
def parsePage(info):
def linkFilter(link):
#filter unwanted <a> links
if link is not None:
trade_match = re.search(r'&trade=', link)
href_split = link.split('=')
for i in range(len(href_split)):
if 'www' in href_split[i] and i > 0:
link = href_split[i]
end_pattern = r'\.(com|com/|net|net/|pro|pro/)$'
end_match = re.search(end_pattern, link)
p_pattern = r'(.*)&p'
p_match = re.search(p_pattern, link)
if end_match or trade_match:
return None
elif p_match:
link = p_match.group(1)
return link
else:
return link
else:
return None
# better to handle a link with 'None' value through TypeError
# exception or through if else statements? Compare linkFilter
# vs. imgFilter functions
def imgFilter(link):
#filter <img> links to retain only .jpg
try:
jpg_match = re.search(r'.jpg', link)
if jpg_match is not None:
return link
else:
return None
except TypeError:
return None
link_num = 0
gallery_flag = None
info['level'] += 1
if info['page'] is '':
return None
# use lxml to parse and get document root
tree = html.parse(StringIO(info['page']))
root = tree.getroot()
root.make_links_absolute(info['url'])
# info['level'] = 1 corresponds to first recursive layer (i.e. main gallery page)
# info['level'] > 1 will be all other <a> links from main gallery page
if info['level'] == 1:
link_cap = max_gallery_links
gallery_flag = True
else:
link_cap = max_picture_links
gallery_flag = False
if info['level'] > 4:
return None
else:
# get <img> links if page is not main gallery ('gallery_flag = False')
# put <img> links back into main event loop to extract header information
# to judge pictures by picture size (i.e. content-length)
if not gallery_flag:
for elem in root.iter('img'):
# create copy of info so that dictionary no longer points to
# previous dictionary, but new dictionary for each link
info = info.copy()
info['url'] = imgFilter(elem.get('src'))
if info['url'] is not None:
reactor.callFromThread(getImgHeader, info)
# get <a> link and put work back into main event loop (i.e. w/
# reactor.callFromThread...) to getPage and then parse, continuing the
# cycle of linking
for elem in root.iter('a'):
if link_num > link_cap:
break
else:
img = elem.find('img')
if img is not None:
link_num += 1
info = info.copy()
info['url'] = linkFilter(elem.get('href'))
if info['url'] is not None:
reactor.callFromThread(getLinkHTML, info)
def getLinkHTML(info):
# get html from <a> link and then send page to be parsed in a thread
d = client.getPage(info['url'])
d.addCallback(parseThread, info)
d.addErrback(failure, "getLink Failure: " + info['url'])
def parseThread(page, info):
print 'parsethread:', info['url']
info['page'] = page
reactor.callInThread(parsePage, info)
def getImgHeader(info):
# get <img> header information to filter images by image size
agent = client.Agent(reactor)
d = agent.request('HEAD', info['url'], None, None)
d.addCallback(getImg, info)
d.addErrback(failure, "getImgHeader Failure: " + info['url'])
def getImg(img_header, info):
# download image only if image is above a certain threshold size
img_size = img_header.headers.getRawHeaders('Content-Length')
if int(img_size[0]) > min_img_size and img_size is not None:
img_name = ''.join(map(urlToName, info['url']))
client.downloadPage(info['url'], path.join(directory, img_name))
else:
img_header, link = None, None #Does this help garbage collecting?
def urlToName(char):
#convert all unwanted characters to '-' from url and use as file name
if char in '/\?|<>"':
return '-'
else:
return char
def failure(error, url):
print error
print url
def main():
info = dict()
info['url'] = start_url
info['level'] = 0
reactor.callWhenRunning(getLinkHTML, info)
reactor.suggestThreadPoolSize(2)
reactor.run()
if __name__ == "__main__":
main()