scrapy - Scrapy: メディアパイプラインのダウンロード優先度の変更: クロールの最後でメディアファイルのダウンロードを遅らせる方法は?

翻译自：https://stackoverflow.com/questions/36798859 2016-04-22T16:22:27.303

393 次

http://doc.scrapy.org/en/latest/topics/media-pipeline.html

アイテムが FilesPipeline に到達すると、 file_urls フィールドの URL は、標準の Scrapy スケジューラーとダウンローダー (スケジューラーとダウンローダーのミドルウェアが再利用されることを意味します) を使用してダウンロードするようにスケジュールされますが、他のページがスクレイピングされる前にそれらを処理する優先度が高くなります。ファイルのダウンロードが完了するまで (または何らかの理由で失敗するまで)、アイテムは特定のパイプラインステージで「ロック」されたままになります。

私は正反対のことをしたい: 最初にすべての HTML URL をスクレイプしてから、すべてのメディアファイルを一度にダウンロードします。どうやってやるの？

scrapy - Scrapy: メディア パイプラインのダウンロード優先度の変更: クロールの最後でメディア ファイルのダウンロードを遅らせる方法は?

1 に答える 1

Related

Reference

scrapy - Scrapy: メディアパイプラインのダウンロード優先度の変更: クロールの最後でメディアファイルのダウンロードを遅らせる方法は?