c# - ログインベースのサイトをクロールする最良の方法は何ですか?

Question

Web サイトからのファイルダウンロードアクティビティを自動化する必要があります (たとえば、yahoomail.com に似ています)。このファイルのダウンロードリンクがあるページにアクセスするには、ログインし、ページからページへジャンプして日付などのパラメータを指定し、最後にダウンロードリンクをクリックします。

私は3つのアプローチを考えています：

WatIN を使用して、WatiN コードを定期的に実行してページを走査し、ファイルをダウンロードする Windows サービスを開発します。
AutoIT の使用 (よくわからない)
単純な HTML 解析手法を使用する (ログイン後にセッションを維持するにはどうすればよいか、ログイン後にログアウトするにはどうすればよいかなど、いくつかの質問があります)。

score 5 · Accepted Answer

私はscrapy.orgを使用しています。これはPythonライブラリです。実は静かでいいです。スパイダーを書くのは簡単で、その機能は非常に豊富です。ログイン後のスクレイピングサイトはパッケージで利用できます。

これは、認証後にサイトをクロールするスパイダーの例です。

class LoginSpider(BaseSpider):
    domain_name = 'example.com'
    start_urls = ['http://www.example.com/users/login.php']

    def parse(self, response):
        return [FormRequest.from_response(response,
                formdata={'username': 'john', 'password': 'secret'},
                callback=self.after_login)]

    def after_login(self, response):
        # check login succeed before going on
        if "authentication failed" in response.body:
            self.log("Login failed", level=log.ERROR)
            return

        # continue scraping with authenticated session...

score 3 · Accepted Answer

私は Python に mechanize を使用し、いくつかの点で成功しました。使いやすく、HTTP 認証、フォーム処理、Cookie、自動 HTTP リダイレクト (30X) などをサポートしています。

score 0 · Accepted Answer

0

無料ダウンロードマネージャーはクロールに最適で、 wgetを使用できます。

于 2009-11-20T04:41:19.190 に答える

score 0 · Accepted Answer

0

SeleniumRemoteControlで自動化された Seleniumスクリプトを試してください。

于 2009-11-20T04:47:59.210 に答える

c# - ログインベースのサイトをクロールする最良の方法は何ですか?

4 に答える 4

Related

Reference