python - Web サイトがキャプチャを実装した既存のスクレイピースパイダーを変更する - デコードして続行するためにポップアップする画像を取得する方法は?

Question

公的記録サイトをスクレイピングする既存のスクレイピースパイダーがあり、スパイダーはうまく機能しますが、スパイダーを壊すキャプチャポップアップが追加されました（元のプログラマーは利用できません）。

これを処理するために既存のスパイダーを変更する方法を確認しようとしています。

たとえば、次から:

[Accept] ボタンをクリックすると、キャプチャフォームがポップアップするようになりました。

ブラウザから右クリックして画像を保存できます。実際、そこに浮かんでいる decaptcha api の 1 つを介して画像をデコードできます。しかし、私はスクレイピーに非常に慣れていないので、画像を抽出して処理する方法を確認するのに役立ちます。

いくつかの助けを使うことができます:)

score 0 · Accepted Answer

次のようなxpathを使用してcaptchaの画像を抽出する必要があります

hxs.select("//div[@class='captcha']/img[@src]")

そしてそれを処理します。

上記は HtmlXPathSelector の例ですが、他のものも使用できます。

python - Web サイトがキャプチャを実装した既存のスクレイピー スパイダーを変更する - デコードして続行するためにポップアップする画像を取得する方法は?