Pythonとツイストを使用してWebクローラーを作成しようとしています。
reactor.run()
取得するためのすべてのリンクを知りません。したがって、コードは次のようになります。
def crawl(url):
d = getPage(url)
d.addCallback(handlePage)
reactor.run()
ハンドルページには次のようなものがあります。
def handlePage(output):
urls = getAllUrls(output)
だから今、私はurlsの各urlにcrawl()を適用する必要があります。それを行うにはどうすればよいですか?reactorを停止して再開する必要がありますか?明らかな何かが欠けている場合は教えてください。