問題タブ [scrapyd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapyd ジョブが終了していません
クロールする必要のあるクモがいくつかあります。デフォルト設定でscrapydを使用しています。私は、scrapyd インターフェイスを使用してジョブをスケジュールすることができました。この時点では、ジョブが終了していないことを除いて、すべて問題ありません。確認するたびに、scrapy をシャットダウンしない限り、16 (4 ジョブ / 4 cpus) のジョブが実行中であり、他のすべてのジョブが保留中であることがわかります。
ログも確認しましたが、次のように書かれています:
Scrapyd を使用して何百ものクモをどのようにスクレイピングしますか?
編集:
スクレイピー.cfg:
スクレイピーの設定.py
c# - Scrapyd Post schedule.json from asp.net
Unixマシンにscrapydとspiderをインストールしましたが、実行するとすべて正常に動作します
Scrapyd API の Web インターフェイスで、ジョブのステータス、ログ、およびアイテムを確認できます。要するに、すべてが期待どおりに機能しています。
今私は、C# を使用して ASP.Net の API に http 投稿を作成することにより、プログラムでスパイダーを開始したいと考えています。
私は例を見つけましたhttp://mahmoud.abdel-fattah.net/2012/07/04/super-simple-and-basic-scrapyd-web-interface/comment-page-1/それはJquery投稿を作成し、これ例は私にとってはうまくいきますが、以下の例は私にとってはうまくいきません
私が間違っていることを教えてください
scrapy - Scrapyd を使用してスパイダーの実行を自動化するにはどうすればよいですか?
私はこれがおそらくばかげているように見えることを知っています。私はWindowsのscrapydの実装をあきらめ、ubuntuマシンをセットアップして、すべてがうまく機能するようにしました. 私はそれぞれ独自のスパイダーを持つ 3 つのプロジェクトを持っています。以下を使用して、端末からスパイダーを実行できます。
上記のコードを実行すると、スクレイプされたアイテムが正しい場所に表示され、Web UI でもすべてが機能するようです。
プロジェクト 1 を毎日午前 12:00 に実行し、プロジェクト 2 を 2 日おきに午前 2:00 に実行し、プロジェクト 3 を 2 週間ごとに午前 4:00 に実行したいと考えています。これを行う方法を学ぶのを手伝ってください。
このタスクの適切なソリューションでさえ、scrapyd はありますか?
python - Scrapyd からスパイダー インスタンスを取得する
Scrapydを使用して実行をスケジュールするときに実行されるスパイダーのインスタンスを取得する方法はありますか? 実行外で処理するためにスパイダーの属性にアクセスする必要があり、json/csv ファイルを使用してこれを行うことはできません。
python-2.7 - 解析中のスクレイピー取得リクエストURL
Scrapy のparse()
関数でリクエスト URL を取得するにはどうすればよいですか? たくさんの URL がstart_urls
あり、そのうちのいくつかはスパイダーをホームページにリダイレクトするため、空のアイテムがあります。したがってitem['start_url'] = request.url
、これらの URL を保存するようなものが必要です。BaseSpider を使用しています。
python - Scrapy は craigslist を再帰的にスクレイピングします
私はスクレイピーを使用してcraigslistをスクラップし、すべてのリンクを取得し、そのリンクに移動し、各ページの説明を保存し、返信のために電子メールを送信しています。今、craigslist/sof.com を調べて、すべての役職と URL を取得するスクレイピー スクリプトを作成しました。各 URL にアクセスして、ジョブごとにメールと説明を保存したいと考えています。私のコードは次のとおりです。
これを行う方法はありますか?