問題タブ [scrapy-pipeline]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapinghub mySQL パイプライン
スクレイピングされたデータを mySQL データベースにエクスポートする Scrapy パイプラインを作成しようとしています。私は自分のスクリプト (pipeline.py) を書きました:
これをすべて卵にして、Scrapinghub にアップロードできるようにしたいと思います。これについてどうすればいいですか?setup.py ファイルを作成してパッケージ化しようとしましたが、パッケージが見つからないというエラーが常に発生します。
scrapy - Scrapy: メディア パイプラインのダウンロード優先度の変更: クロールの最後でメディア ファイルのダウンロードを遅らせる方法は?
http://doc.scrapy.org/en/latest/topics/media-pipeline.html
アイテムが FilesPipeline に到達すると、 file_urls フィールドの URL は、標準の Scrapy スケジューラーとダウンローダー (スケジューラーとダウンローダーのミドルウェアが再利用されることを意味します) を使用してダウンロードするようにスケジュールされますが、他のページがスクレイピングされる前にそれらを処理する優先度が高くなります。ファイルのダウンロードが完了するまで (または何らかの理由で失敗するまで)、アイテムは特定のパイプライン ステージで「ロック」されたままになります。
私は正反対のことをしたい: 最初にすべての HTML URL をスクレイプしてから、すべてのメディア ファイルを一度にダウンロードします。どうやってやるの?
scrapy - 設定 ITEM_PIPELINE は端末からオーバーライドできません
私のsettings.pyには次のものがあります:
そして、それはうまく機能します。しかし、パイプラインなしでスパイダーを実行したい場合があります。私が走るとき
次のエラーが表示されます。
パイプラインなしでスパイダーを実行するにはどうすればよいですか?
これまでのところ、私は試しました:
その他の組み合わせ ドキュメントを参照http://doc.scrapy.org/en/latest/topics/settings.html
うまくいけば、あなたは私を助けることができます. ありがとう。
web-scraping - Scrapy を使用してクロールされた Web ページをメモリに保存する方法
次のスクレイピー スクリプトを使用して、Web をクロールできるようになりました
ここにログがあります
しかし、クロールされたすべての Web ページを html の形式で保存したいですか?自分。私がこれを達成できるように、誰かがコードスナップで私を導くことができますか?
python - スクレイピーパイプラインが機能しない
同じプロジェクトで、同じパイプライン クラスを呼び出すいくつかのスパイダーを作成します。
次のようなパイプライン コードでは:
そして、新しいspiedrXに呼び出させる前に、それは機能します。
そして、他のスパイダーが呼び出すのと同じように、私のspiderXが呼び出すコード:
次に、パイプラインを呼び出しませんが、他の人は呼び出すことができます。理由がわかりません。
SpiderX を実行すると、スクレイピーな行が出力されます。
これは、パイプラインが機能することを意味します
任意の提案をいただければ幸いです。
編集:私の新しいspiderXだけがパイプラインを呼び出すことができません.他の人はできます.
scrapy - Scrapy、パイプラインで http リクエストを作成
このようなスクレイピングされたアイテムがあるとします
パイプラインで、URL に GET リクエストを送信し、content_type や status などのヘッダーを確認したいと考えています。ヘッダーが特定の条件を満たしていない場合、アイテムをドロップしたい。お気に入り
このような臭いは、パイプラインでは不可能です。どう思いますか?これを達成する方法はありますか?
くも:
django - Scrapy イメージ パイプラインがイメージをダウンロードしない
Scrapy Framework と djano-item を使用して、Web ページからの画像のダウンロードをセットアップしようとしています。ドキュメントのようにすべてを行ったと思います が、スクレイピークロールを呼び出した後、次のようにログに記録します。
何が問題なのかについての情報は見つかりませんが、画像フィールドは空で、ディレクトリには画像が含まれていません。
これは私のモデルです
これが、スパイダーから画像パイプラインに移動する方法です
そして最後に、これは Scrapy プロジェクトの私の settings.py です:
よろしくお願いいたします。
編集:
このようなドキュメントのカスタム イメージ パイプラインを使用しました。
get_media_requests では URL へのリクエストが作成されますが、item_completed の結果パラメーターでは次のようなものが得られます:[(False, <twisted.python.failure.Failure scrapy.pipelines.files.FileException: >)]
まだ修正方法がわかりません。https を使用したアドレスへの参照によって問題が発生する可能性はありますか?