1

これは、image_urls フィールドに追加する画像の例です。 http://static.zara.net/photos//2014/I/0/2/p/5875/309/800/2/w/1920/5875309800_1_1_1.jpg それでも、この警告が表示され、画像がアップロードされません。

[zara_com] 警告: ファイル (コード: 404): http://static.zara.net/photos//2014/I/0/2/p/5875/309/800/2/w/1920 から画像をダウンロード中にエラーが発生しました/5875309800_1_1_1.jpg>で参照

http://static.zara.net/photos//2014/V/1/3/p/1280/303/105/2/w/1920/1280303105_2_1_1.jpgのような画像 は正常にアップロードされますが。

何が問題なのですか?何をチェックすればいいですか?

4

1 に答える 1

3

私が見る限り、彼らはデフォルトのスクレイピーユーザーエージェントで行われたリクエストをフィルタリングしているようです:

'User-Agent': 'Scrapy/0.24.2 (+http://scrapy.org)'

プロジェクトの settings.py で USER_AGENT 設定を変更すると、すべてのリクエストで 200 が返され始めました。奇妙なことに、それ以前は正常に返されたという画像でも 404 が返されました。

PSサイトが許可していない場合、サイトからコンテンツをスクレイピングするのはあまり良くありませんが、robots.txtで許可していないわけではありません. それでも、RobotsTxtMiddleware と AutoThrottle 拡張機能を有効にして、公平にプレイしていることを確認する必要があります。

于 2014-08-14T11:41:48.347 に答える