python - Scrapy での認証済みセッションでのクロール

Question

以前の質問では、より一般的な回答から解決策を導き出せることを期待して、自分の問題 (Scrapy で認証されたセッションでスクレイピングする) についてあまり具体的ではありませんでした。という言葉を使うべきだったのかもしれませんcrawling。

だから、これまでの私のコードは次のとおりです。

class MySpider(CrawlSpider):
    name = 'myspider'
    allowed_domains = ['domain.com']
    start_urls = ['http://www.domain.com/login/']

    rules = (
        Rule(SgmlLinkExtractor(allow=r'-\w+.html$'), callback='parse_item', follow=True),
    )

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        if not "Hi Herman" in response.body:
            return self.login(response)
        else:
            return self.parse_item(response)

    def login(self, response):
        return [FormRequest.from_response(response,
                    formdata={'name': 'herman', 'password': 'password'},
                    callback=self.parse)]


    def parse_item(self, response):
        i['url'] = response.url

        # ... do more things

        return i

ご覧のとおり、最初にアクセスするページはログインページです。(関数内で) まだ認証されていない場合は、ログインフォームに投稿するparseカスタム関数を呼び出します。login次に、認証されたら、クロールを続行します。

問題は、parseログインするためにオーバーライドしようとした関数が、それ以上のページをスクレイピングするために必要な呼び出しを行わなくなったことです (私は推測しています)。また、作成したアイテムを保存する方法がわかりません。

誰かが前にこのようなことをしましたか？（を使用して認証してからクロールしますCrawlSpider）助けていただければ幸いです。

score 57 · Accepted Answer

parseで関数をオーバーライドしないでくださいCrawlSpider:

を使用している場合はCrawlSpider、関数をオーバーライドしないでくださいparse。CrawlSpiderここのドキュメントに警告があります: http://doc.scrapy.org/en/0.14/topics/spiders.html#scrapy.contrib.spiders.Rule

これはCrawlSpider、parse(すべての要求のデフォルトのコールバック) を使用すると、s によって処理される応答が送信されるためRuleです。

クロール前のログイン:

スパイダーがクロールを開始する前にある種の初期化を行うために、InitSpider(から継承したCrawlSpider) を使用して関数をオーバーライドできますinit_request。この関数は、スパイダーが初期化されているとき、クロールを開始する前に呼び出されます。

Spider がクロールを開始するには、を呼び出す必要がありますself.initialized。

ここでこれを担当するコードを読むことができます(役立つドキュメント文字列があります)。

例：

from scrapy.contrib.spiders.init import InitSpider
from scrapy.http import Request, FormRequest
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import Rule

class MySpider(InitSpider):
    name = 'myspider'
    allowed_domains = ['example.com']
    login_page = 'http://www.example.com/login'
    start_urls = ['http://www.example.com/useful_page/',
                  'http://www.example.com/another_useful_page/']

    rules = (
        Rule(SgmlLinkExtractor(allow=r'-\w+.html$'),
             callback='parse_item', follow=True),
    )

    def init_request(self):
        """This function is called before crawling starts."""
        return Request(url=self.login_page, callback=self.login)

    def login(self, response):
        """Generate a login request."""
        return FormRequest.from_response(response,
                    formdata={'name': 'herman', 'password': 'password'},
                    callback=self.check_login_response)

    def check_login_response(self, response):
        """Check the response returned by a login request to see if we are
        successfully logged in.
        """
        if "Hi Herman" in response.body:
            self.log("Successfully logged in. Let's start crawling!")
            # Now the crawling can begin..
            return self.initialized()
        else:
            self.log("Bad times :(")
            # Something went wrong, we couldn't log in, so nothing happens.

    def parse_item(self, response):

        # Scrape data from page

アイテムの保存:

Spider が返すアイテムは Pipeline に渡されます。Pipeline は、データでやりたいことを何でも実行します。ドキュメントを読むことをお勧めします: http://doc.scrapy.org/en/0.14/topics/item-pipeline.html

sに関して何か問題や質問がある場合は、Item遠慮なく新しい質問を開いてください。できる限りお手伝いします。

score 4 · Accepted Answer

上記のソリューションを機能させるには、CrawlSpider を InitSpider から継承し、BaseSpider から継承しないようにする必要がありました。スクレイピーソースコードを次のように変更します。ファイル Scrapy/contrib/spiders/crawl.py 内:

追加：from scrapy.contrib.spiders.init import InitSpider
class CrawlSpider(BaseSpider)に変更class CrawlSpider(InitSpider)

そうしないと、スパイダーはinit_requestメソッドを呼び出しません。

他に簡単な方法はありますか？

score 2 · Accepted Answer

必要なのがHttp認証である場合は、提供されているミドルウェアフックを使用してください。

のsettings.py

DOWNLOADER_MIDDLEWARE = [ 'scrapy.contrib.downloadermiddleware.httpauth.HttpAuthMiddleware']

およびspider classプロパティの追加

http_user = "user"
http_pass = "pass"

score 2 · Accepted Answer

上記のどんぐりの答えに追加するだけです。彼の方法を使用すると、私のスクリプトはログイン後に start_urls を解析していませんでした。check_login_response でログインに成功した後、終了していました。でも、発電機を持っていることがわかりました。私は使用する必要がありました

return self.initialized()

次に、解析関数が呼び出されました。

python - Scrapy での認証済みセッションでのクロール

4 に答える 4

Related

Reference