問題タブ [scrapy-spider]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
2307 参照

scrapy - Scrapy のクロールの再開は何もクロールせず、終了するだけです

CrawlSpider Derived クラスでクロールを開始し、Ctrl+C で一時停止します。コマンドを再度実行して再開すると、続行しません。

私の開始および再開コマンド:

Scrapy はフォルダーを作成します。パーミッションは 777 です。

クロールを再開すると、次のように出力されます。

start_url が 1 つあります。これが理由でしょうか?私のクローラーは 1 つの start_url を使用してから、LinkExtractor を使用したルールによってページネーションに従い、特定の URL 形式で解析項目を呼び出します。

私のスパイダーコード:

0 投票する
1 に答える
70 参照

python - ページの再帰的クロール

私の問題は次のとおりです。メイン ページにリスト (html - li) があり、リストのコンポーネントごとに別のページに入力し、情報を取得し、それを 1 つのアイテム要素にまとめて、他の要素とやり取りします。メイン ページ リストの要素 (html - li)。私はこの最初のコードを作成しましたが、私は Python、Scrapy の初心者であり、コードを作成するのが難しいことがわかりました。

私はこの解決策を得ましたが、メイン リスト要素ごとに 2 つの項目が生成されます。

'title'、'room'、'mclass'、'minAge'、'cover'、'sessions'、'trailer'、'synopsis' フィールドが入力された item 要素を 1 つだけ生成するのを手伝ってくれる人はいますか? 'title'、'room'、'mclass'、'minAge'、'cover'、'sessions' フィールドが入力された項目と、'trailer'、'synopsis' が入力された項目の代わりに?

0 投票する
3 に答える
1966 参照

python - スクレイピー、Pythonでサイトマップスパイダーを使用して、異なるURL形式でサイトマップのURLを解析する

私はスクレイピー、パイソンでサイトマップスパイダーを使用しています。サイトマップは、URL の前に '//' が付いた通常とは異なる形式のようです:

myspider.py

このエラーが発生しています:

サイトマップ スパイダーを使用して URL を手動で解析するにはどうすればよいですか?

0 投票する
1 に答える
453 参照

python-2.7 - Scrapy-Scraper が実行されない

Beautiful Soup と Mechanized を使用して Python を実行できますが、Spray-Scraper を使用しようとすると、何らかの理由で動作しません。チュートリアルでスクレーパーをテストしようとするとどうなるかの例を次に示します。

プロジェクト名&BOT名=「tutorial」

以下のスクリプトは、私が使用した items.py と settings.py です。

アイテム.py

設定.py

CMD

0 投票する
1 に答える
241 参照

python - スクレイピースクリーンスクレーパーのエラー - 私の人生にとって何が悪いのかわかりません

このエラーの原因がわかりません。エラーは craig.py ファイルの 3 行目で発生していますが、不一致は見られません。

フォルダ構造

  • クレイグ(フォルダ)
    • クモ (フォルダ)
      • 初期化.py
      • 初期化.pyc
      • クレイグ.py
      • クレイグ.pyc
    • 初期化.py
    • 初期化.pyc
    • パイプライン.py
    • 設定.py
    • 設定.pyc
    • スクレイピー.cfg

プロジェクト名: Craig ファイル名: Craig Spyder 名: Craig.py

クレイグ.py

アイテム.py

エラーは次のとおりです。

0 投票する
0 に答える
1343 参照

python - キャプチャの場合は Scrapy のログインと再試行

最初にログインして注文のリストを解析する必要があるスパイダーに取り組んでいます。スクレイピングしようとしているサイトは、ログインに成功した後、時々キャプチャを使用します。キャプチャのみを要求するか、キャプチャの詳細を使用して再度ログインします。

以下のスパイダーは期待どおりに動作し、ログインを試行し、check_login_responseメソッドで、ログインが成功したかどうかを確認し、そうでない場合は再度呼び出していますself.login()。通常、スパイダーには注文 URL のリストが与えられます。それらは実行時にメソッドで start_urls にロードされます__init___

現在起こっていることは、スパイダーが実行され、parse_pageメソッドで停止することです。この行に出力された URL を確認できますlog.msg('request %s' % url)。しかし、スパイダーは、start_urls のリストを使用して parse メソッドを実行することはありません。

この問題は、キャプチャの再試行が発生した場合にのみ発生します。通常のログイン シナリオでは問題なく動作し、解析メソッドが呼び出されます。

アドバイスをお願いします。

PS Spider と CrawlSpider の両方のクラスを試しましたが、同じ結果が得られました

EDIT (コンソール出力の追加)

これは、キャプチャが検出された場合です。

これはキャプチャがない場合です