“scrapy-pipeline”の関連問題_Stack Overflow日本語サイト

0 投票する

0 に答える

416 参照

python - Scrapinghub mySQL パイプライン

スクレイピングされたデータを mySQL データベースにエクスポートする Scrapy パイプラインを作成しようとしています。私は自分のスクリプト (pipeline.py) を書きました:

これをすべて卵にして、Scrapinghub にアップロードできるようにしたいと思います。これについてどうすればいいですか？setup.py ファイルを作成してパッケージ化しようとしましたが、パッケージが見つからないというエラーが常に発生します。

2016-04-19T16:27:48.847

0 投票する

1 に答える

393 参照

scrapy - Scrapy: メディアパイプラインのダウンロード優先度の変更: クロールの最後でメディアファイルのダウンロードを遅らせる方法は?

http://doc.scrapy.org/en/latest/topics/media-pipeline.html

アイテムが FilesPipeline に到達すると、 file_urls フィールドの URL は、標準の Scrapy スケジューラーとダウンローダー (スケジューラーとダウンローダーのミドルウェアが再利用されることを意味します) を使用してダウンロードするようにスケジュールされますが、他のページがスクレイピングされる前にそれらを処理する優先度が高くなります。ファイルのダウンロードが完了するまで (または何らかの理由で失敗するまで)、アイテムは特定のパイプラインステージで「ロック」されたままになります。

私は正反対のことをしたい: 最初にすべての HTML URL をスクレイプしてから、すべてのメディアファイルを一度にダウンロードします。どうやってやるの？

scrapy scrapy-spider scrapy-pipeline

2016-04-22T16:22:27.303

0 投票する

1 に答える

152 参照

scrapy - 設定 ITEM_PIPELINE は端末からオーバーライドできません

私のsettings.pyには次のものがあります：

そして、それはうまく機能します。しかし、パイプラインなしでスパイダーを実行したい場合があります。私が走るとき

次のエラーが表示されます。

パイプラインなしでスパイダーを実行するにはどうすればよいですか?

これまでのところ、私は試しました：

その他の組み合わせドキュメントを参照http://doc.scrapy.org/en/latest/topics/settings.html

うまくいけば、あなたは私を助けることができます. ありがとう。

scrapy scrapy-spider scrapyd scrapy-pipeline

2016-05-27T15:48:08.367

0 投票する

1 に答える

441 参照

web-scraping - Scrapy を使用してクロールされた Web ページをメモリに保存する方法

次のスクレイピースクリプトを使用して、Web をクロールできるようになりました

ここにログがあります

しかし、クロールされたすべての Web ページを html の形式で保存したいですか?自分。私がこれを達成できるように、誰かがコードスナップで私を導くことができますか?

web-scraping scrapy scrapy-spider scrapy-pipeline

2016-06-09T11:02:11.687

0 投票する

0 に答える

314 参照

python - スクレイピーパイプラインが機能しない

同じプロジェクトで、同じパイプラインクラスを呼び出すいくつかのスパイダーを作成します。

次のようなパイプラインコードでは:

そして、新しいspiedrXに呼び出させる前に、それは機能します。

そして、他のスパイダーが呼び出すのと同じように、私のspiderXが呼び出すコード：

次に、パイプラインを呼び出しませんが、他の人は呼び出すことができます。理由がわかりません。

SpiderX を実行すると、スクレイピーな行が出力されます。

これは、パイプラインが機能することを意味します

任意の提案をいただければ幸いです。

編集:私の新しいspiderXだけがパイプラインを呼び出すことができません.他の人はできます.

python scrapy scrapy-pipeline

2016-07-17T14:34:28.987

0 投票する

1 に答える

3592 参照

scrapy - Scrapy、パイプラインで http リクエストを作成

このようなスクレイピングされたアイテムがあるとします

パイプラインで、URL に GET リクエストを送信し、content_type や status などのヘッダーを確認したいと考えています。ヘッダーが特定の条件を満たしていない場合、アイテムをドロップしたい。お気に入り

このような臭いは、パイプラインでは不可能です。どう思いますか？これを達成する方法はありますか？

くも：

scrapy scrapy-pipeline

2016-07-19T19:33:57.640

0 投票する

1 に答える

1099 参照

django - Scrapy イメージパイプラインがイメージをダウンロードしない

Scrapy Framework と djano-item を使用して、Web ページからの画像のダウンロードをセットアップしようとしています。ドキュメントのようにすべてを行ったと思いますが、スクレイピークロールを呼び出した後、次のようにログに記録します。

スクレイピーログ

何が問題なのかについての情報は見つかりませんが、画像フィールドは空で、ディレクトリには画像が含まれていません。

これは私のモデルです

これが、スパイダーから画像パイプラインに移動する方法です

そして最後に、これは Scrapy プロジェクトの私の settings.py です:

よろしくお願いいたします。

編集：

このようなドキュメントのカスタムイメージパイプラインを使用しました。

get_media_requests では URL へのリクエストが作成されますが、item_completed の結果パラメーターでは次のようなものが得られます:[(False, <twisted.python.failure.Failure scrapy.pipelines.files.FileException: >)] まだ修正方法がわかりません。https を使用したアドレスへの参照によって問題が発生する可能性はありますか?

django scrapy scrapy-pipeline

2016-07-25T19:42:10.897

問題タブ [scrapy-pipeline]

Reference