0

プログラムでフォーム データを投稿する必要がある URL (http://www2.anac.gov.br/aeronaves/cons_rab.asp) があります。つまり、プログラム的に、正しいラジオボタンを選択して送信ボタンをクリックしたいのです。上記の URL にアクセスすると、選択する必要があるラジオ ボタンは「モデル」です。「OK」ボタンをクリックすると、20,000 以上のリンクを含むフォームが表示されます。

次に、20,000 以上のリンクをすべてトラバースし、リンクが指すページをスクレイピングしたいと考えています。最後に、最後のページから情報を取得し、データを Excel スプレッドシートに入れます。

情報をスクレイピングするために 3 ページ目に到達する最善の方法は何ですか? HTML Agility Pack、HTTPWebRequest、および WebBrowser コントロールを調査しましたが、どれを使用すればよいかわかりません。

更新: 最初のページで、ラジオ ボタンを選択し、フォームをそれ自体にポストするボタン クリックをシミュレートする必要があります。結果のページには、私が興味を持っている 20,000 件以上のリンクが含まれています。ただし、各リンクは JavaScript 関数呼び出しです。JS 関数はリンク テキストを受け取り、それをテキスト ボックスに配置してから、送信ボタンをクリックします。どうやってそれを自動化するのですか?

4

2 に答える 2

1

セレンを試しましたか?Webドライバーを使用しており、これを使用していくつかのスクリーンスクレイピングアプリを実行しましたが、リアルタイムアプリでも問題が発生したことはありません。これをC#で使用して、ブラウザーを駆動し、必要なものを取得できます。

于 2012-08-15T15:14:58.983 に答える
1

HTML Agility パックを使用すると、必要なことを実行できるはずです。

iRobot も考慮する必要があります。

また:

1) 何を試しましたか?

2) どこまで行きましたか。どのような問題/質問に遭遇しましたか?

于 2012-08-10T20:37:19.807 に答える