問題タブ [scrapy-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapy アイテム ['img_urls'] がファイルをダウンロードしない
私は現在、画像による魚認識システムの構築からなる学生のデータサイエンティストプロジェクトに取り組んでいます。テンソルフローを使用してデータから意味を理解し、スクレイピーを使用して大量のデータ (魚の写真と彼の学名) を見つけます。
私はスクレイピーを初めて使用しますが、3 日から多くの作業を行っており、基本的なフィッシュベース スパイダーを作成しました (スパイダーのコードで URL を見つけることができます)。
アイテムファイルは次のとおりです。
と設定ファイル:
必要な結果が得られますが、画像がダウンロードされません。理由がわかりません...さらに、他のサイトから大量の画像をダウンロードしました。
python - クローラーのスクレイピー内で出力ファイル名を指定します
私はpython 3.6で書かれたスクレイピープロジェクトを持っています。プロジェクトには3つのクローラーがあり、Webサイトごとに1つのクローラーで3つの異なるWebサイトからアイテムをスクレイピングするだけです。各クローラーがアイテムにわずかな違いがitems.py
あるスクリプトでアイテムを使用しています。それを実行すると、出力ファイルとしてファイルが取得されます。クローラーごとに同じことをしていますが、出力ファイル名が異なります。yield item
scrapy crawl crawlera -o sample.json
sample.json
しかし、私がやりたいことは、timestamp + website name
各Webサイトのようにファイル名を付けたいので、ファイル名は実行ごとおよびWebサイトごとに異なります。
3つのクローラーはすべて同じ構造で、1つは以下にあります
アイテム.py
helper.py