0

Web サイトを自動的に閲覧してデータを収集したいと考えています。

フォームのあるページがあります。フォームは、選択ボタンと送信ボタンで構成されています。選択のオプションを選択して送信ボタンをクリックすると、関連データを含むいくつかのテーブルがある別のページにつながります。

オプションごとにこのデータを収集してファイルに保存する必要があります。おそらく、最初のページに戻って各オプションのタスクを繰り返す必要があります。詳細は、以前のオプションの正確な数がわからないということです。

私の考えは、できれば Firefox または Chrome でそのタスクを実行することです。それを行う唯一の方法はプログラミングを介して行うことだと思います。

誰かがそのタスクを簡単かつ迅速に行う方法を教えてくれるかもしれません. Java、Javascript、Python について少し知っています。

4

3 に答える 3

2

Selenium のような「Web ブラウザ自動化」ツールをグーグルで検索することをお勧めします。目的には完全には適合しませんが、要件を実装するために使用できると思います。

于 2013-06-05T00:29:19.027 に答える
1

タスクは比較的十分に制約されているため、Selenium は避けて (少し脆弱です)、代わりに次のアプローチを試します。

  • 最初のページからオプションの包括的なリストを取得し、それをテキスト ファイルに記録します。
  • Fiddler などのネットワーク監視ツールを使用して、最初のページを送信したときに送信されるトラフィックをキャプチャします。サーバーに送信される内容とその方法 (POST と GET、パラメーターのエンコーディングなど) を正確に確認します。
  • curlなどのツールを使用して、ステップ 2 で取得した正確な形式でリクエスト ステップを再生します。次に、ステップ 1 のテキスト ファイル内のすべての値を実行するバッチ スクリプトを (bash または python を使用して) 記述し、すべてに対して curl を実行します。ドロップダウンの値。curl 出力をファイルに保存します。
于 2013-06-05T00:36:28.910 に答える