私はこのスパイダーを何週間も書き込もうとしましたが、成功しませんでした。これを Python でコーディングする最良の方法は次のとおりです。
1) 初期 URL:http://www.whitecase.com/Attorneys/List.aspx?LastName=A
2) 最初の URL から、次の正規表現を使用してこれらの URL を取得します。
hxs.select('//td[@class="altRow"][1]/a/@href').re('/.a\w+')
[u'/cabel', u'/jacevedo', u'/jacuna', u'/aadler', u'/zahmedani', u'/tairisto', u
/zalbert', u'/salberts', u'/aaleksandrova', u'/malhadeff', u'/nalivojvodic', u'
....
3) これらの各 URL にアクセスし、この正規表現を使用して学校の情報をスクレイピングします。
hxs.select('//td[@class="mainColumnTDa"]').re('(?<=(JD,\s))(.*?)(\d+)'
[u'JD, ', u'University of Florida Levin College of Law, <em>magna cum laude</em>
, Order of the Coif, Symposium Editor, Florida Law Review, Awards for highest
grades in Comparative Constitutional History, Legal Drafting, Real Property and
Sales, ', u'2007']
4) スクレイピングされた学校情報をschools.csvファイルに書き込みます
このスパイダーを Python で書くのを手伝ってくれませんか? Scrapy で書き込もうとしましたが、成功しませんでした。私の前の質問を参照してください。
ありがとうございました。