問題タブ [scrapyd]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

350 問題

0 投票する

2 に答える

942 参照

python - スクレイピープロジェクトのデプロイ時のエラー

ubuntuリポジトリからインストールされたscrapy 0.24、scrapyd、scrapyd-deployパッケージがあります。プロジェクトをデプロイしようとすると:

/tmp/scrapydeploy-jmYE9g/stderr コンテンツ:

何か案は？

2014-10-24T09:56:56.407

0 投票する

1 に答える

1309 参照

python - 本番環境の Scrapy + Django

Scrapy を利用する Django Web アプリを作成しており、ローカルではすべてうまく動作しますが、スパイダーが定期的かつ自動的に起動される運用環境をセットアップする方法を知りたいです (つまり、スパイダーがジョブを完了すると再起動されます)。一定時間後...たとえば24時間後）。現在、カスタム Django コマンドを使用してスパイダーを起動します。これは、Django の ORM を使用してスクレイピングしたアイテムを保存できるようにすることを主な目的としているため、次を実行します。

結果は Postgres データベースに保存されます。本番環境で Scrapyを実行するための推奨される方法のように思われるので、私はscrapydをインストールしましたが、残念ながら、Web サービス API に JSON を使用し、「modelX is not json serializable」という例外が発生します。私はdjango-dynamic-scraperを見ましたが、Scrapy のように柔軟でカスタマイズできるように設計されていないようで、実際にはドキュメントで次のように述べています。

物事を簡素化するため、DDS はすべての種類のスクレイパーに使用できるわけではありませんが、更新された項目のリストを含む Web サイトを定期的にスクレイピングするという比較的一般的なケースには適しています

また、crontab を使用してスパイダーをスケジュールすることも考えましたが、スパイダーをどのくらいの間隔で実行する必要がありますか? そして、EC2 インスタンス (Amazon Web サービスを使用してコードをホストする予定) を再起動する必要がある場合は、すべてのスパイダーを手動で再実行する必要があります...うーん...複雑になります...だから...何ができるでしょうか実稼働環境の効果的なセットアップになりますか? どのように処理しますか？あなたのアドバイスは何ですか？

python json django scrapy scrapyd

2014-10-27T10:46:49.707

0 投票する

1 に答える

726 参照

python - タイムスケジューリング - Scrapy

Scarpy で、スパイダーを実行するスケジュールを設定する方法はありますか?

python web-scraping scrapy screen-scraping scrapyd

2014-11-13T14:06:11.410

0 投票する

1 に答える

1139 参照

amazon-ec2 - Scrapy on AWS EC2 : 項目をどこに書き込む?

ローカルマシンに作業中のスパイダーがあり、アイテムをローカルの postgres データベースに書き込みます。

私は今、EC2 インスタンスで Scrapyd を介して同じスパイダーを実行しようとしています。コード (モデル、パイプライン、設定ファイル) がローカルマシン上のデータベースを参照しているため、これは明らかに機能しません。

これを機能させるには、どの適応を実装する必要がありますか?

amazon-ec2 scrapy scrapyd

2014-11-18T23:25:40.110

0 投票する

2 に答える

276 参照

python-2.7 - Scrapyd: curl エラー「不明または破損した卵」

スパイダーのバージョンを更新しようとしています。

curl http://localhost:6800/addversion.json -d project=comicvn -d spider=comicvn2 -d version= 141667324 -d egg=14116674324.egg

エラーが発生しました：{"status"": error,"message": "ValuesError: Unkow or corrupt egg"

卵のパラメータとは？それに値を設定する必要がありますか？ありがとうございます！

コマンドを使用して「14116674324.egg」を作成しましたbdist_egg。その後、14116674324.eggパス :C:\Python27\Scripts\eggs\comicvn2にファイルが作成されたので、このファイルをプロジェクトのルートフォルダーにコピーしますC:\Python27\Scripts\comicvn2。

python-2.7 scrapyd

2014-11-22T18:02:14.457

0 投票する

2 に答える

613 参照

web-scraping - スパイダーscrapyd pythonをデプロイした後のデータストアはどこですか?

成功時にスパイダーをデプロイしてスケジュールしhttp://localhost:6800/ましたが、アイテムストアのデータはどこにありますか? どうすれば入手できますか？

本当にありがとう！

web-scraping scrapy scrapyd

2014-11-22T19:35:21.023

1 2 3 4 5 6 7 8 9 10

問題タブ [scrapyd]

python - スクレイピープロジェクトのデプロイ時のエラー

python - 本番環境の Scrapy + Django

python - タイムスケジューリング - Scrapy

amazon-ec2 - Scrapy on AWS EC2 : 項目をどこに書き込む?

python-2.7 - Scrapyd: curl エラー「不明または破損した卵」

web-scraping - スパイダーscrapyd pythonをデプロイした後のデータストアはどこですか?

Reference