問題タブ [scrapy-spider]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scrapy - Scrapy のクロールの再開は何もクロールせず、終了するだけです
CrawlSpider Derived クラスでクロールを開始し、Ctrl+C で一時停止します。コマンドを再度実行して再開すると、続行しません。
私の開始および再開コマンド:
Scrapy はフォルダーを作成します。パーミッションは 777 です。
クロールを再開すると、次のように出力されます。
start_url が 1 つあります。これが理由でしょうか?私のクローラーは 1 つの start_url を使用してから、LinkExtractor を使用したルールによってページネーションに従い、特定の URL 形式で解析項目を呼び出します。
私のスパイダーコード:
python - ページの再帰的クロール
私の問題は次のとおりです。メイン ページにリスト (html - li) があり、リストのコンポーネントごとに別のページに入力し、情報を取得し、それを 1 つのアイテム要素にまとめて、他の要素とやり取りします。メイン ページ リストの要素 (html - li)。私はこの最初のコードを作成しましたが、私は Python、Scrapy の初心者であり、コードを作成するのが難しいことがわかりました。
私はこの解決策を得ましたが、メイン リスト要素ごとに 2 つの項目が生成されます。
'title'、'room'、'mclass'、'minAge'、'cover'、'sessions'、'trailer'、'synopsis' フィールドが入力された item 要素を 1 つだけ生成するのを手伝ってくれる人はいますか? 'title'、'room'、'mclass'、'minAge'、'cover'、'sessions' フィールドが入力された項目と、'trailer'、'synopsis' が入力された項目の代わりに?
python - スクレイピー、Pythonでサイトマップスパイダーを使用して、異なるURL形式でサイトマップのURLを解析する
私はスクレイピー、パイソンでサイトマップスパイダーを使用しています。サイトマップは、URL の前に '//' が付いた通常とは異なる形式のようです:
myspider.py
このエラーが発生しています:
サイトマップ スパイダーを使用して URL を手動で解析するにはどうすればよいですか?
python-2.7 - Scrapy-Scraper が実行されない
Beautiful Soup と Mechanized を使用して Python を実行できますが、Spray-Scraper を使用しようとすると、何らかの理由で動作しません。チュートリアルでスクレーパーをテストしようとするとどうなるかの例を次に示します。
プロジェクト名&BOT名=「tutorial」
以下のスクリプトは、私が使用した items.py と settings.py です。
アイテム.py
設定.py
CMD
python - スクレイピースクリーンスクレーパーのエラー - 私の人生にとって何が悪いのかわかりません
このエラーの原因がわかりません。エラーは craig.py ファイルの 3 行目で発生していますが、不一致は見られません。
フォルダ構造
- クレイグ(フォルダ)
- クモ (フォルダ)
- 初期化.py
- 初期化.pyc
- クレイグ.py
- クレイグ.pyc
- 初期化.py
- 初期化.pyc
- パイプライン.py
- 設定.py
- 設定.pyc
- スクレイピー.cfg
- クモ (フォルダ)
プロジェクト名: Craig ファイル名: Craig Spyder 名: Craig.py
クレイグ.py
アイテム.py
エラーは次のとおりです。
python - キャプチャの場合は Scrapy のログインと再試行
最初にログインして注文のリストを解析する必要があるスパイダーに取り組んでいます。スクレイピングしようとしているサイトは、ログインに成功した後、時々キャプチャを使用します。キャプチャのみを要求するか、キャプチャの詳細を使用して再度ログインします。
以下のスパイダーは期待どおりに動作し、ログインを試行し、check_login_response
メソッドで、ログインが成功したかどうかを確認し、そうでない場合は再度呼び出していますself.login()
。通常、スパイダーには注文 URL のリストが与えられます。それらは実行時にメソッドで start_urls にロードされます__init___
。
現在起こっていることは、スパイダーが実行され、parse_page
メソッドで停止することです。この行に出力された URL を確認できますlog.msg('request %s' % url)
。しかし、スパイダーは、start_urls のリストを使用して parse メソッドを実行することはありません。
この問題は、キャプチャの再試行が発生した場合にのみ発生します。通常のログイン シナリオでは問題なく動作し、解析メソッドが呼び出されます。
アドバイスをお願いします。
PS Spider と CrawlSpider の両方のクラスを試しましたが、同じ結果が得られました
EDIT (コンソール出力の追加)
これは、キャプチャが検出された場合です。
これはキャプチャがない場合です