1

http://doc.scrapy.org/en/latest/topics/media-pipeline.html

アイテムが FilesPipeline に到達すると、 file_urls フィールドの URL は、標準の Scrapy スケジューラーとダウンローダー (スケジューラーとダウンローダーのミドルウェアが再利用されることを意味します) を使用してダウンロードするようにスケジュールされますが、他のページがスクレイピングされる前にそれらを処理する優先度が高くなります。ファイルのダウンロードが完了するまで (または何らかの理由で失敗するまで)、アイテムは特定のパイプライン ステージで「ロック」されたままになります。

私は正反対のことをしたい: 最初にすべての HTML URL をスクレイプしてから、すべてのメディア ファイルを一度にダウンロードします。どうやってやるの?

4

1 に答える 1