python - スクレイパーウィキでの保存と再開 - CPU 時間

Question

こういうことをするのは初めてなので、初歩的なミスをあらかじめお詫びします。州内の姓と名を検索した結果の最初のページの legacy.com をスクレイピングしようとしています。私はプログラミングが初めてで、scraperwiki を使用してコードを作成していました。それは機能しましたが、10,000 件のクエリが処理される前に、CPU 時間を使い果たしました。現在、進行状況を保存し、時間が少なくなったときにキャッチして、中断したところから再開しようとしています。

セーブを機能させることができません。他の部分についても助けていただければ幸いです。今のところ、リンクを取得しているだけですが、リンクされたページのメインコンテンツを保存する方法があれば、それも非常に役立ちます。

これが私のコードです：

import scraperwiki

from urllib import urlopen
from BeautifulSoup import BeautifulSoup

f = open('/tmp/workfile', 'w')
#read database, find last, start from there

def searchname(fname, lname, id, stateid):
    url = 'http://www.legacy.com/ns/obitfinder/obituary-search.aspx?daterange=Last1Yrs&firstname= %s &lastname= %s &countryid=1&stateid=%s&affiliateid=all' % (fname, lname, stateid)
    obits=urlopen(url)
    soup=BeautifulSoup(obits)
    obits_links=soup.findAll("div", {"class":"obitName"})
    print obits_links
    s = str(obits_links)
    id2 = int(id)
    f.write(s)
    #save the database here
    scraperwiki.sqlite.save(unique_keys=['id2'], data=['id2', 'fname', 'lname', 'state_id', 's'])


# Import Data from CSV
import scraperwiki
data = scraperwiki.scrape("https://dl.dropbox.com/u/14390755/legacy.csv")
import csv
reader = csv.DictReader(data.splitlines())
for row in reader:
    #scraperwiki.sqlite.save(unique_keys=['id'], 'fname', 'lname', 'state_id', data=row)
    FNAME = str(row['fname'])
    LNAME = str(row['lname'])
    ID = str(row['id'])
    STATE = str(row['state_id'])
    print "Person: %s %s" % (FNAME,LNAME)
    searchname(FNAME, LNAME, ID, STATE)


f.close()
f = open('/tmp/workfile', 'r')
data = f.read()
print data

score 1 · Accepted Answer

CSV ループの最後に、各 fname+lname+state の組み合わせをで記述しsave_varます。次に、そのループの直前に、保存された値を渡すまで行を処理せずに通過する別のループを追加します。

Web ページ全体をデータストアに書き込むことができるはずですが、私はそれをテストしていません。

python - スクレイパーウィキでの保存と再開 - CPU 時間

1 に答える 1

Related

Reference