公的記録サイトをスクレイピングする既存のスクレイピースパイダーがあり、スパイダーはうまく機能しますが、スパイダーを壊すキャプチャポップアップが追加されました(元のプログラマーは利用できません)。
これを処理するために既存のスパイダーを変更する方法を確認しようとしています。
たとえば、次から:
http://publicindex.sccourts.org/mccormick/publicindex/
[Accept] ボタンをクリックすると、キャプチャ フォームがポップアップするようになりました。
ブラウザから右クリックして画像を保存できます。実際、そこに浮かんでいる decaptcha api の 1 つを介して画像をデコードできます。しかし、私はスクレイピーに非常に慣れていないので、画像を抽出して処理する方法を確認するのに役立ちます。
いくつかの助けを使うことができます:)