python - Heroku クラウドに Scrapy スパイダーをデプロイする方法

翻译自：https://stackoverflow.com/questions/12779184 2012-10-08T09:48:06.730

10038 次

11

スクレイピーでいくつかのスパイダーを開発しましたが、それらを Heroku クラウドでテストしたいと考えています。Heroku クラウドに Scrapy スパイダーをデプロイする方法を知っている人はいますか?

1 に答える 1

13

はい、Scrapy スパイダーを Heroku にデプロイして実行するのはかなり簡単です。

例として、実際の Scrapy プロジェクトを使用した手順を次に示します。

requirements.txtプロジェクトのクローンを作成します ( Heroku が Python プロジェクトとして認識するためのファイルが必要であることに注意してください)。

git clone https://github.com/scrapinghub/testspiders.git
cffi を requirements.txt ファイルに追加します (例: cffi==1.1.0)。
Heroku アプリケーションを作成します (これにより、新しい heroku git リモートが追加されます)。

heroku create
プロジェクトをデプロイします (最初はスラッグをビルドするときは時間がかかります)。

git push heroku main
スパイダーを実行します。

heroku run scrapy crawl followall

いくつかのメモ:

Heroku ディスクはエフェメラルです。スクレイピングしたデータを永続的な場所に保存する場合は、S3 フィードエクスポートを使用するか ( を追加して-o s3://mybucket/items.jl)、アドオン (MongoHQ や Redis To Go など) を使用してパイプラインを作成し、そこにアイテムを保存します。
Heroku で Scrapyd サーバーを実行するのはクールですが、sqlite3(Scrapyd が必要とする) モジュールが Heroku で動作しないため、現時点では実行できません。
Scrapy スパイダーをデプロイするためのより洗練されたソリューションが必要な場合は、独自のScrapyd サーバーをセットアップするか、 Scrapy Cloudのようなホストされたサービスを使用することを検討してください

于 2012-10-18T21:58:44.433 に答える