python - Scrapy は、直接挿入できるのに、なぜアイテムを気にするのですか?

Question

ドメインをクロールするためにscrapyを使用します。sqlalchemy を使用して、そのすべての情報をデータベースに保存する予定です。これはページごとの非常に単純な xpath セレクターであり、HttpCacheMiddleware を使用する予定です。

理論的には、スパイダーからデータを取得したらすぐにデータベースにデータを挿入できます (これには、少なくとも hxs をインスタンス化する必要があります)。これにより、アイテムのサブクラスのインスタンス化をバイパスできるため、パイプラインを通過するアイテムがなくなります。

そうすることの利点は次のとおりです。

パイプラインの CPU 処理がないため、CPU への負荷が少ない
メモリリークを防ぎます。

ディスク I/O はネットワーク I/O よりもはるかに高速であるため、これがスパイダーに大きな影響を与えるとは思いません。

Scrapy の Item クラスを使用したい理由はありますか?

score 7 · Accepted Answer

スパイダー内に直接挿入すると、スパイダーはデータが挿入されるまでブロックします。アイテムを作成してパイプラインに渡すと、データが挿入されている間、スパイダーは引き続きクロールできます。また、複数のスパイダーが同時にデータを挿入しようとすると、競合状態が発生する可能性があります。

score 0 · Accepted Answer

これは古い質問ですが、支持された答えは本当に正しくないと思います。

ItemScrapy のクラスを使用したい理由はありますか?

Web スクレイピングの Scrapy モデルは基本的に次のとおりです。

スパイダーを使ってデータを収集します。
そのデータをアイテムにまとめる。
これらのアイテムをアイテムパイプラインで処理します。
これらのアイテムを、さらに別のアイテムパイプラインを使用してどこかに保存します。

ステップ 3 と 4 は、「大きな」アイテムパイプラインを構成します。をサブクラス化しないItemと、アイテムパイプラインにオブジェクトを入力できないため、フィールドを正規化し、すべてスパイダー内でアイテムをデータベースに挿入する必要があります。

subclassを実行するItemと、アイテム処理コードをより保守しやすくすることができます。

from scrapy.item import Item, Field
from scrapy.contrib.loader import XPathItemLoader
from scrapy.contrib.loader.processor import MapCompose, Identity

class Product(Item):
    name = Field()
    price = Field()

    aisle = Field()
    categories = Field()

class ProductLoader(XPathItemLoader):
    default_item_class = Product

    price_in = MapCompose(parse_price)
    categories_out = Identity()

python - Scrapy は、直接挿入できるのに、なぜアイテムを気にするのですか?

2 に答える 2

Related

Reference