問題タブ [scrapyd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scrapy - Scrapyd を実行し続ける
Debianマシンにscrapyとscrapydをインストールしました。ssh トンネルを使用してこのサーバーにログインします。次に、scrapyd を開始します。
Scrapyd は正常に起動し、サーバーへの別の ssh トンネルを開き、次のようにスパイダーをスケジュールします: curl localhost:6800/schedule.json -d project=myproject -d spider=myspider
スパイダーはうまく動作し、すべてが順調です。
問題は、scrapyd を起動したセッションを終了すると、scrapyd の実行が停止することです。これにより、cronジョブが起動されたときにscrapydが実行されていないため、cronを使用してscrapydでスパイダーをスケジュールできなくなります。
私の簡単な質問は、ssh セッションを終了したときにシャットダウンしないように、scrapyd を実行し続けるにはどうすればよいかということです。
python - 私のpythonプロジェクトの卵を作る
私の既存のpythonプロジェクトを卵化する方法について、ステップバイステップの手順で誰かが私を案内してもらえますか? ドキュメントでは、パッケージ内の setup.py について言及し続けていますが、私のプロジェクトでは見つかりません...
ありがとうございました、
python - コマンドラインからScrapyでフォームデータを渡すにはどうすればよいですか?
コマンドラインからユーザー名とパスワードを渡すにはどうすればよいですか? ありがとう!
python - 複数の Scrapy Spider を実行する (簡単な方法) Python
Scrapy は非常に優れていますが、ドキュメンテーションは非常に骨の折れるものであり、いくつかの簡単な質問には答えるのが難しいものでした。さまざまなスタックオーバーフローからさまざまな手法をまとめた後、複数のスクレイピースパイダーを実行するための簡単で過度に技術的ではない方法をついに思いつきました。私は、scrapyd などを実装しようとするよりも技術的ではないことを想像します:
これは、フォームリクエストの後にデータをスクレイピングする 1 つのジョブとしてうまく機能するスパイダーの 1 つです。
必要なフォーム入力を使用してフォームデータを意図的に書き出す代わりに、「20」と「25:
「自分」を使いました。+ 変数名:
これにより、必要な引数を使用してコマンドラインからスパイダーを呼び出すことができます (以下を参照)。python subprocess call() 関数を使用して、これらのコマンド ラインを次々と簡単に呼び出すことができます。これは、コマンドラインに移動して「python scrapymanager.py」と入力し、コマンドラインでそれぞれ異なる引数を渡してすべてのスパイダーに処理を実行させ、データを正しい場所にダウンロードできることを意味します。
したがって、各フォームを連続してクロールする複雑な単一のスパイダーを装備するのに何時間も費やすのではなく (私の場合は異なる水泳ストローク)、これは多くのスパイダーを「一度に」実行するための非常に簡単な方法です (私は遅延を含めました) sleep() 関数を使用した各スクレイピー呼び出しの間)。
うまくいけば、これは誰かを助けます。
windows - Windows での Scrapyd のインストールに関する問題
easy_install を使用してパッケージをインストールしましたが、コマンドscrapyd
で何も表示されません。これが私のインストールの出力です:
問題は何ですか?