問題タブ [scrapyd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ScrapyプロジェクトをscrapydにデプロイするときにHTTPCACHEが機能しない
Scrapyd で HTTPCACHE を使用しようとすると、次のエラーが発生します。
[scrapy] WARNING: Disabled Httpcache Middlware: unable to find scrapy.cfg file to infer project data dir
scrapy - Scrapy サーバーのセットアップ
AWSでscrapydサーバーをセットアップしようとしていて、ローカルマシンからアクセスしようとしています. これまでのところ、scrapyd をリモート マシンで実行することができました。
私はそれが実行されていることを知っていstart scrapyd
ますstart: Job is already running: scrapyd
。
ローカル マシンからアクセスできるようにするには、どうすればよいですか?
python - ScrapyのScrapydがスパイダーのスケジュール設定で遅すぎる
Scrapydを実行していますが、4つのスパイダーを同時に起動すると奇妙な問題が発生します。
私はすでにScrapydの次の設定を持っています:
Scrapydがスケジュールどおりにスパイダーを同時に実行しないのはなぜですか?
python - スパイダー内のScrapydjobid値
FrameworkScrapy-Scrapydサーバー。
スパイダー内でjobid値を取得するのに問題があります。
http:// localhost:6800 / schedule.jsonにデータを投稿した後、応答は次のようになります。
しかし、プロセス中に現在のスパイダー内でこのジョブIDを使用する必要があります。これは、開いている{jobid}.logファイルまたはその他の動的な理由で使用できます。
しかし、私はタスクが完了した後にのみこのjobidを見る:(ありがとう!
python - クローラー プロセスが予期せず終了する
クローラー プロセスが予期せず終了するという問題に直面しています。
私はスクレイピー 0.14 を使用していますが、0.12 にも問題がありました。
Scrapyd ログには、次のようなエントリが表示されます: プロセスが死亡しました: exitstatus=None スパイダー ログには、データベース ステータスによって示されるスパイダー クローズ情報も表示されません。
他の誰かが同様の状況に直面しましたか? これらのプロセスが消えた理由、アイデア、提案をどのように追跡できますか?
python - Scrapyd を使用して一度に複数の Scrapy Spider を実行する
私は、多数のサイト (おそらく数百) をスクレイピングしたいプロジェクトにスクレイピーを使用しており、サイトごとに特定のスパイダーを作成する必要があります。以下を使用して、scrapyd にデプロイされたプロジェクトで1 つのスパイダーをスケジュールできます。
しかし、プロジェクト内のすべてのスパイダーを一度にスケジュールするにはどうすればよいでしょうか?
すべての助けに感謝します!
python - sparkydを使用してプロジェクトをデプロイする際のエラー
プロジェクトフォルダに複数のスパイダーがあり、すべてのスパイダーを一度に実行したいので、scrapydサービスを使用して実行することにしました。私はここを見てこれを始めました
まず第一に、私は現在のプロジェクトフォルダにいます
ファイルを開いて、
scrapy.cfg
後にURL行のコメントを外しました[配備]
私は
scrapy server
コマンドを実行しました、それはうまく動作し、scrapydサーバーは実行されますこのコマンドを試しました
scrapy deploy -l
結果 :
default http://localhost:6800/
- このコマンドを試した
scrapy deploy -L scrapyd
ところ、次の出力が得られました
結果:
このコマンドでプロジェクトをデプロイしようとすると、scrapy deploy scrapyd -p default
次のエラーが発生しました
私は本当にscrapydが上記のエラーを示していることを特定できません。プロジェクトをscrapydにデプロイする正しい方法に私を導くことができます
前もって感謝します..........
編集されたコード:
Peter Kirbyの答えを見た後、scrapy.cfgでtargetという名前を付け、プロジェクトフォルダーで次のコマンドを試しました。
コマンド:
次に、以下のエラーが発生しました
これを解決する方法.....
python - sparkydを使用して複数のスパイダーを実行する
プロジェクトに複数のスパイダーがあったので、scrapydサーバーにアップロードして実行することにしました。プロジェクトを正常にアップロードしました。コマンドを実行すると、すべてのスパイダーが表示されます。
次のコマンドを実行すると
与えられたスパイダーが1つしかないため、1つのスパイダーしか実行されませんが、ここで複数のスパイダーを実行したいので、次のコマンドは、scrapydで複数のスパイダーを実行するのに適していますか?
そして後で、cronジョブを使用してこのコマンドを実行します。つまり、これを頻繁に実行するようにスケジュールします。
python - コマンド「scrapycrawltest」を実行しようとすると、libxml2またはlxmlエラーが発生します
私はソースコードを次のようにフォローしています:
シェルコマンド(scrapy shell http://test.com/test)で実行すると、正常に動作します。エラーは発生しません。ただし、コマンド「scrapy cool test」を実行すると、以下のエラーが発生します。
私はすでにlibxml2とlxmlの両方をインストールしているので、それは真実ではありません。http://www.lfd.uci.edu/~gohlke/pythonlibs/からバイナリパッケージ(64ビット)をダウンロードしてインストールします 。さらに、cmdからlxmlとlibxml2を正常にインポートできます。
この問題を解決するのを手伝ってください。
どうもありがとう。
python - スクレイピーログの問題
私は1つのプロジェクトに複数のスパイダーを持っています、問題は今私がSETTINGSのようにLOG_FILEを定義していることです
私が欲しいのはscrapy_SPIDERNAME_DATETIME
しかし、私は log_file name に Spidername を提供することができません..
私が見つけた
各スパイダーinitメソッドでそれを呼び出しましたが、機能していません..
任意の助けをいただければ幸いです