問題タブ [scrapy-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
260 参照

python - Scrapy アイテム ['img_urls'] がファイルをダウンロードしない

私は現在、画像による魚認識システムの構築からなる学生のデータサイエンティストプロジェクトに取り組んでいます。テンソルフローを使用してデータから意味を理解し、スクレイピーを使用して大量のデータ (魚の写真と彼の学名) を見つけます。

私はスクレイピーを初めて使用しますが、3 日から多くの作業を行っており、基本的なフィッシュベース スパイダーを作成しました (スパイダーのコードで URL を見つけることができます)。

アイテムファイルは次のとおりです。

と設定ファイル:

必要な結果が得られますが、画像がダウンロードされません。理由がわかりません...さらに、他のサイトから大量の画像をダウンロードしました。

0 投票する
1 に答える
786 参照

python - クローラーのスクレイピー内で出力ファイル名を指定します

私はpython 3.6で書かれたスクレイピープロジェクトを持っています。プロジェクトには3つのクローラーがあり、Webサイトごとに1つのクローラーで3つの異なるWebサイトからアイテムをスクレイピングするだけです。各クローラーがアイテムにわずかな違いがitems.pyあるスクリプトでアイテムを使用しています。それを実行すると、出力ファイルとしてファイルが取得されます。クローラーごとに同じことをしていますが、出力ファイル名が異なります。yield itemscrapy crawl crawlera -o sample.jsonsample.json

しかし、私がやりたいことは、timestamp + website name各Webサイトのようにファイル名を付けたいので、ファイル名は実行ごとおよびWebサイトごとに異なります。

3つのクローラーはすべて同じ構造で、1つは以下にあります

アイテム.py

helper.py