問題タブ [scrapyd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1296 参照

python - Scrapyd ジョブが終了していません

クロールする必要のあるクモがいくつかあります。デフォルト設定でscrapydを使用しています。私は、scrapyd インターフェイスを使用してジョブをスケジュールすることができました。この時点では、ジョブが終了していないことを除いて、すべて問題ありません。確認するたびに、scrapy をシャットダウンしない限り、16 (4 ジョブ / 4 cpus) のジョブが実行中であり、他のすべてのジョブが保留中であることがわかります。

ログも確認しましたが、次のように書かれています:

Scrapyd を使用して何百ものクモをどのようにスクレイピングしますか?

編集:

スクレイピー.cfg:

スクレイピーの設定.py

0 投票する
1 に答える
402 参照

c# - Scrapyd Post schedule.json from asp.net

Unixマシンにscrapydとspiderをインストールしましたが、実行するとすべて正常に動作します

Scrapyd API の Web インターフェイスで、ジョブのステータス、ログ、およびアイテムを確認できます。要するに、すべてが期待どおりに機能しています。

今私は、C# を使用して ASP.Net の API に http 投稿を作成することにより、プログラムでスパイダーを開始したいと考えています。

私は例を見つけましたhttp://mahmoud.abdel-fattah.net/2012/07/04/super-simple-and-basic-scrapyd-web-interface/comment-page-1/それはJquery投稿を作成し、これ例は私にとってはうまくいきますが、以下の例は私にとってはうまくいきません

私が間違っていることを教えてください

0 投票する
1 に答える
661 参照

scrapy - Scrapyd を使用してスパイダーの実行を自動化するにはどうすればよいですか?

私はこれがおそらくばかげているように見えることを知っています。私はWindowsのscrapydの実装をあきらめ、ubuntuマシンをセットアップして、すべてがうまく機能するようにしました. 私はそれぞれ独自のスパイダーを持つ 3 つのプロジェクトを持っています。以下を使用して、端末からスパイダーを実行できます。

上記のコードを実行すると、スクレイプされたアイテムが正しい場所に表示され、Web UI でもすべてが機能するようです。

プロジェクト 1 を毎日午前 12:00 に実行し、プロジェクト 2 を 2 日おきに午前 2:00 に実行し、プロジェクト 3 を 2 週間ごとに午前 4:00 に実行したいと考えています。これを行う方法を学ぶのを手伝ってください。

このタスクの適切なソリューションでさえ、scrapyd はありますか?

0 投票する
1 に答える
148 参照

python - Scrapyd からスパイダー インスタンスを取得する

Scrapydを使用して実行をスケジュールするときに実行されるスパイダーのインスタンスを取得する方法はありますか? 実行外で処理するためにスパイダーの属性にアクセスする必要があり、json/csv ファイルを使用してこれを行うことはできません。

0 投票する
5 に答える
52590 参照

python-2.7 - 解析中のスクレイピー取得リクエストURL

Scrapy のparse()関数でリクエスト URL を取得するにはどうすればよいですか? たくさんの URL がstart_urlsあり、そのうちのいくつかはスパイダーをホームページにリダイレクトするため、空のアイテムがあります。したがってitem['start_url'] = request.url、これらの URL を保存するようなものが必要です。BaseSpider を使用しています。

0 投票する
2 に答える
669 参照

python - Scrapy は craigslist を再帰的にスクレイピングします

私はスクレイピーを使用してcraigslistをスクラップし、すべてのリンクを取得し、そのリンクに移動し、各ページの説明を保存し、返信のために電子メールを送信しています。今、craigslist/sof.com を調べて、すべての役職と URL を取得するスクレイピー スクリプトを作成しました。各 URL にアクセスして、ジョブごとにメールと説明を保存したいと考えています。私のコードは次のとおりです。

これを行う方法はありますか?