0

GAE のハンドラーから Web クローリング機能を呼び出しています。いくつかの画像を取得して表示します。最初の呼び出しでは問題なく動作しますが、次回はすべて同じ画像が表示され、クローラーは最後の画像が中断されたところから開始されます。グローバル変数が正しくリセットされていないことが問題だと思います。

アプリを再デプロイするたびに、最初は正しく実行されますが、問題が始まります。

これが私のコードです。明確にする必要がある場合はお知らせください。ただし、意味があると思います。

スクレーパー機能はこちら

visited_pages = []
visit_queue = deque([])
collected_pages = []
collected_pics = []
count = 0
pic_count = 0

def scrape_pages(url, root_url, keywords=[], recurse=True):
    #variables
    max_count = 16
    pic_num = 100

    global count
    global pic_count
    global collected_pics
    global collected_pages

    print 'the keywords and url are'
    print keywords
    print url

    #this is all of the links that have been scraped
    the_links = []

    soup = soupify_url(url)

    #only add new pages onto the queue if the recursion argument is true    
    if recurse:
        #find all the links on the page
        try:
            for tag in soup.findAll('a'):
                the_links.append(tag.get('href'))
        except AttributeError:
            return

        try:
            external_links, internal_links, root_links, primary_links = categorize_links(the_links, url, root_url)
        except TypeError:
            return


        #change it so this depends on the input
        links_to_visit = external_links + internal_links + root_links

        #build the queue
        for link in links_to_visit:
            if link not in visited_pages and link not in visit_queue:
                visit_queue.append(link)

    visited_pages.append(url)
    count = count + 1
#    print 'number of pages visited'
#    print count

    #add pages to collected_pages depending on the criteria given if any keywords are given
    if keywords:
        page_to_add = find_pages(url, soup, keywords)

#        print 'page to add'
#        print page_to_add
        if page_to_add and page_to_add not in collected_pages:
            collected_pages.append(page_to_add)


    pics_to_add = add_pics(url, soup)
#    print 'pics to add'
#    print pics_to_add
    if pics_to_add:
        collected_pics.extend(pics_to_add)

    #here is where the actual recursion happens by finishing the queue
    while visit_queue:
        if count >= max_count:
            return

        if pic_count > pic_num:
            return

        link = visit_queue.popleft()
#        print link
        scrape_pages(link, root_url, keywords)

#    print '***done***'
    ###done with the recursive scraping function here

#here I just get a list of links from Bing, add them to the queue and go through them then reset all the global variables
def scrape_bing_src(keywords):
    visit_queue, the_url = scrape_bing.get_links(keywords, a_list = False)
    scrape_pages(visit_queue.popleft(), the_url, keywords, recurse=True)

    global collected_pics
    global pic_count
    global count
    global visited_pages
    global visit_queue

    pic_count = 0
    count = 0
    visited_pages = []
    visit_queue = deque([])

    pics_to_return = collected_pics
    collected_pics = []
    return pics_to_return

スクレイパー関数を呼び出すハンドラーは次のとおりです。

#this just simply displays the images
class Try(BlogHandler):
    def get(self, keyword):
        keyword = str(keyword)
        keyword_list = keyword.split()
        img_list = scraper.scrape_bing_src(keyword_list)

        for img in img_list:
            self.response.write("""<br><img src='""" + img + """'>""")

        self.response.write('we are done here')
4

1 に答える 1

1

コードは、1つの「サーバー」と1つのインスタンスだけで実行されるわけではありません。おそらく、管理コンソールの[インスタンス]タブにすでに気付いているでしょう。そのため、呼び出しの合間にも別のサーバーに切り替えられたり、プロセスが「再起動」されたりする可能性があります(詳細はこちらをご覧ください)。ウォームアッププロセス中に、アプリケーションはディスクからメモリに読み込み、要求の処理を開始します。したがって、独自のグローバル変数値を持つ新しいプリキャッシュされたPythonインスタンスを取得するたびに。

あなたの場合、memcacheを使用することをお勧めします。

于 2013-02-13T10:12:15.067 に答える