私は、いくつかのWebサイトをスクラップして、そのデータを取得するスクレイピースパイダープロジェクトを持っています。私のスパイダーは、スクレイピングされたすべてのデータが保存されている 2 つの JSON ファイルを生成します。
さて、ユーザーの要求を満たすために上記の 2 つの JSON ファイルを使用するフラスコ Web サービスがあります。
このフラスコ Web サービスを heroku にデプロイしましたが、正常に動作します。
ここでの問題は、ローカル マシンで毎日スクレイピー スパイダーを実行し、heroku で 2 つの JSON ファイルを手動で更新することです。
スクレイピープロジェクトは毎日実行され、生成された JSON ファイルは自動的に更新される必要があるこのプロセスを自動化したいと考えています。
ここで見つけた解決策は、scrapy スパイダーと Web サービスが単一のプロジェクトとしてデプロイされている場合、希望どおりに動作することです....しかし、それが可能かどうかはわかりません。
Scrapy プロジェクトの展開に関するトピックを検索したところ、scrapyd やさらには Scrapy-heroku が見つかりましたが、それらがどのように役立つのか、特定の要件を満たすためにどのように使用すればよいのかわかりません。