python - Python で簡単なスパイダーを作成するには?

Question

私はこのスパイダーを何週間も書き込もうとしましたが、成功しませんでした。これを Python でコーディングする最良の方法は次のとおりです。

1) 初期 URL:http://www.whitecase.com/Attorneys/List.aspx?LastName=A

2) 最初の URL から、次の正規表現を使用してこれらの URL を取得します。

hxs.select('//td[@class="altRow"][1]/a/@href').re('/.a\w+')

[u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairisto', u
/zalbert', u'/salberts', u'/aaleksandrova', u'/malhadeff', u'/nalivojvodic', u'
....

3) これらの各 URL にアクセスし、この正規表現を使用して学校の情報をスクレイピングします。

hxs.select('//td[@class="mainColumnTDa"]').re('(?<=(JD,\s))(.*?)(\d+)'

[u'JD, ', u'University of Florida Levin College of Law, <em>magna cum laude</em> , Order of the Coif, Symposium Editor, Florida Law Review, Awards for highest grades in Comparative Constitutional History, Legal Drafting, Real Property and Sales, ', u'2007']

4) スクレイピングされた学校情報をschools.csvファイルに書き込みます

このスパイダーを Python で書くのを手伝ってくれませんか? Scrapy で書き込もうとしましたが、成功しませんでした。私の前の質問を参照してください。

ありがとうございました。

score 4 · Accepted Answer

http://www.ibm.com/developerworks/linux/library/l-spider/適切な説明を含む IBM の記事

また

http://code.activestate.com/recipes/576551/ Python のクックブック、コードは改善されているが説明は少ない

score 0 · Accepted Answer

また、以下をお読みになることをお勧めします。

正規表現は、XHTML 自己完結型タグを除く開始タグに一致します

正規表現で HTML を解析する前に。次に、誰かの名前が最初にページを latin-1 ではなく Unicode にすることを強制したときに何が起こるかを考えてみてください。

編集: Python で使用するライブラリについての質問に答えるには、優れた HTML パーサーであり、全体で Unicode をサポートするBeautiful Soupをお勧めします (そして、不正な形式の HTML で非常にうまく機能します。場所）。

python - Python で簡単なスパイダーを作成するには?

2 に答える 2

Related

Reference