2

完全に悪意のない目的、特に機械学習のために、CAPTCHA 画像の膨大なデータセットをダウンロードしたいと考えています。ただし、CAPTCHA は常に難読化された JavaScript を使用して実装されているため、ブラウザーなしで実際の画像を取得することは、少なくとも JavaScript の初心者である私にとっては簡単なことではありません。

では、完全にブラウザの外部でスクリプトを使用して、あいまいな単語の画像をダウンロードする方法について、役立つヒントを誰か教えてもらえますか? また、すでに収集されたあいまいな単語のデータセットを教えてはいけません。この特定の実験のために、特定の Web サイトから画像を収集する必要があります。

ありがとう!

編集:この質問をする別の方法は非常に簡単です。複雑な JavaScript を使った Web サイトで「ソースを表示」をクリックすると、スクリプトの参照が表示されますが、それだけです。ただし、[Web ページを名前を付けて保存] (Firefox の場合) をクリックして、保存されたWeb ページのソースを表示すると、JavaScript が解決され、新しい html と画像 (少なくとも ASIRRA と reCAPTCHA の場合) が表示されます。ソースで。スクリプトを使用して、この「Web ページを名前を付けて保存」の動作を模倣するにはどうすればよいですか? これは一般的に重要な Web コーディングの質問なので、私の動機について私に質問するのはやめてください! これは、これからスクリプトを含むすべての Web 開発で使用できる知識であり、他のスタック オーバーフローの訪問者も同様に使用できると確信しています!

4

3 に答える 3

5

ここで答えを待っている間、私は掘り下げ続け、最終的に、私がやりたいことを成し遂げるための一種のハッキングされた方法を見つけました.

まず、これがやや複雑な問題である理由 (少なくとも私のような JavaScript の初心者にとって) は、ASIRRA からの画像がクライアント側のテクノロジである JavaScript を介して Web ページに読み込まれるためです。これは、wget や curl などを使用して Web ページをダウンロードする場合に問題になります。実際には JavaScript を実行せず、ソース html をダウンロードするだけだからです。したがって、画像は取得できません。

しかし、firefox の「名前を付けてページを保存...」を使用すると、必要なことが正確に行われることに気付きました。画像をロードする JavaScript を実行し、ハード ドライブの既知のディレクトリ構造にすべて保存しました。それはまさに私が自動化したかったものです。だから...「iMacros」と呼ばれるFirefoxアドオンを見つけて、このマクロを書きました:

VERSION BUILD=6240709 RECORDER=FX
TAB T=1
URL GOTO=http://www.asirra.com/examples/ExampleService.html
SAVEAS TYPE=CPL FOLDER=C:\Cat-Dog\Downloads  FILE=*

10,000回ループするように設定すると、完全に機能しました。実際、常に同じフォルダーに保存していたため、重複した画像が上書きされていました (これが私の望みでした)。

于 2009-10-12T18:23:28.207 に答える
0

サイトを運営している人々と連絡を取り、データセットを求めてください。疑わしい方法で多くの画像をダウンロードしようとすると、すぐにキル リストに登録されてしまい、何も取得できなくなります。

CAPTCHA は、人々を虐待から保護するためのものであり、あなたが行うことは、彼らの観点からは虐待のように見えます。

于 2009-10-09T14:20:29.063 に答える
0

自分でCAPTCHAを取得して画像を生成してみませんか? reCAPTCHAも無料です。 http://www.captcha.net/

更新: 特定のサイトから取得したいのですが、独自のサイトを取得する場合は、対象のサイトと同じ種類の画像を提供するように微調整できます。

于 2009-10-09T14:07:01.727 に答える