問題タブ [scrapyd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - スクレイピープロジェクトのデプロイ時のエラー
ubuntuリポジトリからインストールされたscrapy 0.24、scrapyd、scrapyd-deployパッケージがあります。プロジェクトをデプロイしようとすると:
/tmp/scrapydeploy-jmYE9g/stderr コンテンツ:
何か案は?
python - 本番環境の Scrapy + Django
Scrapy を利用する Django Web アプリを作成しており、ローカルではすべてうまく動作しますが、スパイダーが定期的かつ自動的に起動される運用環境をセットアップする方法を知りたいです (つまり、スパイダーがジョブを完了すると再起動されます)。一定時間後...たとえば24時間後)。現在、カスタム Django コマンドを使用してスパイダーを起動します。これは、Django の ORM を使用してスクレイピングしたアイテムを保存できるようにすることを主な目的としているため、次を実行します。
結果は Postgres データベースに保存されます。本番環境で Scrapyを実行するための推奨される方法のように思われるので、私はscrapydをインストールしましたが、残念ながら、Web サービス API に JSON を使用し、 「modelX is not json serializable」という例外が発生します。私はdjango-dynamic-scraperを見ましたが、Scrapy のように柔軟でカスタマイズできるように設計されていないようで、実際にはドキュメントで次のように述べています。
物事を簡素化するため、DDS はすべての種類のスクレイパーに使用できるわけではありませんが、更新された項目のリストを含む Web サイトを定期的にスクレイピングするという比較的一般的なケースには適しています
また、crontab を使用してスパイダーをスケジュールすることも考えましたが、スパイダーをどのくらいの間隔で実行する必要がありますか? そして、EC2 インスタンス (Amazon Web サービスを使用してコードをホストする予定) を再起動する必要がある場合は、すべてのスパイダーを手動で再実行する必要があります...うーん...複雑になります...だから...何ができるでしょうか実稼働環境の効果的なセットアップになりますか? どのように処理しますか?あなたのアドバイスは何ですか?
python - タイムスケジューリング - Scrapy
Scarpy で、スパイダーを実行するスケジュールを設定する方法はありますか?
amazon-ec2 - Scrapy on AWS EC2 : 項目をどこに書き込む?
ローカル マシンに作業中のスパイダーがあり、アイテムをローカルの postgres データベースに書き込みます。
私は今、EC2 インスタンスで Scrapyd を介して同じスパイダーを実行しようとしています。コード (モデル、パイプライン、設定ファイル) がローカル マシン上のデータベースを参照しているため、これは明らかに機能しません。
これを機能させるには、どの適応を実装する必要がありますか?
python-2.7 - Scrapyd: curl エラー「不明または破損した卵」
スパイダーのバージョンを更新しようとしています。
curl http://localhost:6800/addversion.json -d project=comicvn -d spider=comicvn2 -d version= 141667324 -d egg=14116674324.egg
エラーが発生しました:{"status"": error,"message": "ValuesError: Unkow or corrupt egg"
卵のパラメータとは?それに値を設定する必要がありますか?ありがとうございます !
コマンドを使用して「14116674324.egg」を作成しましたbdist_egg
。その後、14116674324.egg
パス :C:\Python27\Scripts\eggs\comicvn2
にファイルが作成されたので、このファイルをプロジェクトのルート フォルダーにコピーしますC:\Python27\Scripts\comicvn2
。
web-scraping - スパイダーscrapyd pythonをデプロイした後のデータストアはどこですか?
成功時にスパイダーをデプロイしてスケジュールしhttp://localhost:6800/
ましたが、アイテムストアのデータはどこにありますか? どうすれば入手できますか?
本当にありがとう !