問題タブ [scrapy-pipeline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
416 参照

python - Scrapinghub mySQL パイプライン

スクレイピングされたデータを mySQL データベースにエクスポートする Scrapy パイプラインを作成しようとしています。私は自分のスクリプト (pipeline.py) を書きました:

これをすべて卵にして、Scrapinghub にアップロードできるようにしたいと思います。これについてどうすればいいですか?setup.py ファイルを作成してパッケージ化しようとしましたが、パッケージが見つからないというエラーが常に発生します。

0 投票する
1 に答える
393 参照

scrapy - Scrapy: メディア パイプラインのダウンロード優先度の変更: クロールの最後でメディア ファイルのダウンロードを遅らせる方法は?

http://doc.scrapy.org/en/latest/topics/media-pipeline.html

アイテムが FilesPipeline に到達すると、 file_urls フィールドの URL は、標準の Scrapy スケジューラーとダウンローダー (スケジューラーとダウンローダーのミドルウェアが再利用されることを意味します) を使用してダウンロードするようにスケジュールされますが、他のページがスクレイピングされる前にそれらを処理する優先度が高くなります。ファイルのダウンロードが完了するまで (または何らかの理由で失敗するまで)、アイテムは特定のパイプライン ステージで「ロック」されたままになります。

私は正反対のことをしたい: 最初にすべての HTML URL をスクレイプしてから、すべてのメディア ファイルを一度にダウンロードします。どうやってやるの?

0 投票する
1 に答える
152 参照

scrapy - 設定 ITEM_PIPELINE は端末からオーバーライドできません

私のsettings.pyには次のものがあります:

そして、それはうまく機能します。しかし、パイプラインなしでスパイダーを実行したい場合があります。私が走るとき

次のエラーが表示されます。

パイプラインなしでスパイダーを実行するにはどうすればよいですか?

これまでのところ、私は試しました:

その他の組み合わせ ドキュメントを参照http://doc.scrapy.org/en/latest/topics/settings.html

うまくいけば、あなたは私を助けることができます. ありがとう。

0 投票する
1 に答える
441 参照

web-scraping - Scrapy を使用してクロールされた Web ページをメモリに保存する方法

次のスクレイピー スクリプトを使用して、Web をクロールできるようになりました

ここにログがあります

しかし、クロールされたすべての Web ページを html の形式で保存したいです?自分。私がこれを達成できるように、誰かがコードスナップで私を導くことができますか?

0 投票する
0 に答える
314 参照

python - スクレイピーパイプラインが機能しない

同じプロジェクトで、同じパイプライン クラスを呼び出すいくつかのスパイダーを作成します。

次のようなパイプライン コードでは:

そして、新しいspiedrXに呼び出させる前に、それは機能します。

そして、他のスパイダーが呼び出すのと同じように、私のspiderXが呼び出すコード:

次に、パイプラインを呼び出しませんが、他の人は呼び出すことができます。理由がわかりません。

SpiderX を実行すると、スクレイピーな行が出力されます。

これは、パイプラインが機能することを意味します

任意の提案をいただければ幸いです。

編集:私の新しいspiderXだけがパイプラインを呼び出すことができません.他の人はできます.

0 投票する
1 に答える
3592 参照

scrapy - Scrapy、パイプラインで http リクエストを作成

このようなスクレイピングされたアイテムがあるとします

パイプラインで、URL に GET リクエストを送信し、content_type や status などのヘッダーを確認したいと考えています。ヘッダーが特定の条件を満たしていない場合、アイテムをドロップしたい。お気に入り

このような臭いは、パイプラインでは不可能です。どう思いますか?これを達成する方法はありますか?

くも:

0 投票する
1 に答える
1099 参照

django - Scrapy イメージ パイプラインがイメージをダウンロードしない

Scrapy Framework と djano-item を使用して、Web ページからの画像のダウンロードをセットアップしようとしています。ドキュメントのようにすべてを行ったと思います が、スクレイピークロールを呼び出した後、次のようにログに記録します。

スクレイピーログ

何が問題なのかについての情報は見つかりませんが、画像フィールドは空で、ディレクトリには画像が含まれていません。

これは私のモデルです

これが、スパイダーから画像パイプラインに移動する方法です

そして最後に、これは Scrapy プロジェクトの私の settings.py です:

よろしくお願いいたします。

編集:

このようなドキュメントのカスタム イメージ パイプラインを使用しました。

get_media_requests では URL へのリクエストが作成されますが、item_completed の結果パラメーターでは次のようなものが得られます:[(False, <twisted.python.failure.Failure scrapy.pipelines.files.FileException: >)] まだ修正方法がわかりません。https を使用したアドレスへの参照によって問題が発生する可能性はありますか?