0

公的記録サイトをスクレイピングする既存のスクレイピースパイダーがあり、スパイダーはうまく機能しますが、スパイダーを壊すキャプチャポップアップが追加されました(元のプログラマーは利用できません)。

これを処理するために既存のスパイダーを変更する方法を確認しようとしています。

たとえば、次から:

http://publicindex.sccourts.org/mccormick/publicindex/

[Accept] ボタンをクリックすると、キャプチャ フォームがポップアップするようになりました。

ブラウザから右クリックして画像を保存できます。実際、そこに浮かんでいる decaptcha api の 1 つを介して画像をデコードできます。しかし、私はスクレイピーに非常に慣れていないので、画像を抽出して処理する方法を確認するのに役立ちます。

いくつかの助けを使うことができます:)

4

1 に答える 1

0

次のようなxp​​athを使用してcaptchaの画像を抽出する必要があります

hxs.select("//div[@class='captcha']/img[@src]")

そしてそれを処理します。

上記は HtmlXPathSelector の例ですが、他のものも使用できます。

詳細についてはhttp://doc.scrapy.org/en/0.18/topics/selectors.html

于 2013-09-10T10:11:43.170 に答える