2

Web サイトからのファイル ダウンロード アクティビティを自動化する必要があります (たとえば、yahoomail.com に似ています)。このファイルのダウンロード リンクがあるページにアクセスするには、ログインし、ページからページへジャンプして日付などのパラメータを指定し、最後にダウンロード リンクをクリックします。

私は3つのアプローチを考えています:

  1. WatIN を使用して、WatiN コードを定期的に実行してページを走査し、ファイルをダウンロードする Windows サービスを開発します。

  2. AutoIT の使用 (よくわからない)

  3. 単純な HTML 解析手法を使用する (ログイン後にセッションを維持するにはどうすればよいか、ログイン後にログアウトするにはどうすればよいかなど、いくつかの質問があります)。

4

4 に答える 4

5

私はscrapy.orgを使用しています。これはPythonライブラリです。実は静かでいいです。スパイダーを書くのは簡単で、その機能は非常に豊富です。ログイン後のスクレイピングサイトはパッケージで利用できます。

これは、認証後にサイトをクロールするスパイダーの例です。

class LoginSpider(BaseSpider):
    domain_name = 'example.com'
    start_urls = ['http://www.example.com/users/login.php']

    def parse(self, response):
        return [FormRequest.from_response(response,
                formdata={'username': 'john', 'password': 'secret'},
                callback=self.after_login)]

    def after_login(self, response):
        # check login succeed before going on
        if "authentication failed" in response.body:
            self.log("Login failed", level=log.ERROR)
            return

        # continue scraping with authenticated session...
于 2009-11-20T04:49:53.747 に答える
3

私は Python に mechanize を使用し、いくつかの点で成功しました使いやすく、HTTP 認証、フォーム処理、Cookie、自動 HTTP リダイレクト (30X) などをサポートしています。

于 2009-11-20T11:27:50.477 に答える
0

無料ダウンロードマネージャーはクロールに最適で、 wgetを使用できます。

于 2009-11-20T04:41:19.190 に答える
0

SeleniumRemoteControlで自動化されたSeleniumスクリプトを試してください。

于 2009-11-20T04:47:59.210 に答える