問題タブ [scrapyd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Windows Scrapyd-Deploy が認識されない
このようにscrapydをインストールしました
Scrapyd-deploy を使いたい
私がscrapydと入力したとき
私はcmdでこの例外を受け取りました:
「scrapyd」は、内部コマンドまたは外部コマンド、操作可能なプログラムまたはバッチ ファイルとして認識されません。
python - スクレイピークラウドにスクレイピープロジェクトをデプロイする際のエラー
Python 2.7でscrapy 0.20を使用しています。
自分のスクレイピー プロジェクトをスクレイピー クラウドにデプロイしたい
- シンプルなスパイダーでスクレイピープロジェクトを開発しました。
- 私のスクレイピープロジェクトフォルダーに移動します。
scrapy deploy scrapyd -d koooraspider
cmdに入力しました。koooraspider
私のプロジェクトの名前はどこにあり、scrapyd
私のターゲットはどこですか。
次のエラーが発生しました。
スクレイピー.cfg
ノート
前の手順を実行すると、project.egg-info
フォルダー、build
フォルダー、およびsetup.py
スクリプトが生成されました。
どんな助けでも大歓迎です。
python - スクレイピーで複数のスパイダー間で訪問したURLを共有していますか?
私は、同じドメインで複数のスパイダーをジョブとして実行するために、scrapyd を使用しています。スクレイピーには、クロール時に他のスパイダーと共有および調整する、訪問した URL のハッシュテーブルがあると思いました。同じスパイダーのインスタンスを作成するとき
むしろ同じ URL をクロールし、重複データがスクレイピングされています。誰かが以前に同様の問題に対処したことがありますか?
scrapyd - SCRAPYD でスパイダーをスケジュールする
私はスパイダーの実行をスケジュールしようとしています、私は書いた:
戻る:
Scrapyd.log に次のように表示されます。
誰でも私を助けることができますか?
よろしく
デニス
python-2.7 - herokuにscrapyプロジェクトをデプロイする
私は、いくつかのWebサイトをスクラップして、そのデータを取得するスクレイピースパイダープロジェクトを持っています。私のスパイダーは、スクレイピングされたすべてのデータが保存されている 2 つの JSON ファイルを生成します。
さて、ユーザーの要求を満たすために上記の 2 つの JSON ファイルを使用するフラスコ Web サービスがあります。
このフラスコ Web サービスを heroku にデプロイしましたが、正常に動作します。
ここでの問題は、ローカル マシンで毎日スクレイピー スパイダーを実行し、heroku で 2 つの JSON ファイルを手動で更新することです。
スクレイピープロジェクトは毎日実行され、生成された JSON ファイルは自動的に更新される必要があるこのプロセスを自動化したいと考えています。
ここで見つけた解決策は、scrapy スパイダーと Web サービスが単一のプロジェクトとしてデプロイされている場合、希望どおりに動作することです....しかし、それが可能かどうかはわかりません。
Scrapy プロジェクトの展開に関するトピックを検索したところ、scrapyd やさらには Scrapy-heroku が見つかりましたが、それらがどのように役立つのか、特定の要件を満たすためにどのように使用すればよいのかわかりません。