問題タブ [scrapy-spider]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1529 問題

0 投票する

2 に答える

2307 参照

scrapy - Scrapy のクロールの再開は何もクロールせず、終了するだけです

CrawlSpider Derived クラスでクロールを開始し、Ctrl+C で一時停止します。コマンドを再度実行して再開すると、続行しません。

私の開始および再開コマンド：

Scrapy はフォルダーを作成します。パーミッションは 777 です。

クロールを再開すると、次のように出力されます。

start_url が 1 つあります。これが理由でしょうか？私のクローラーは 1 つの start_url を使用してから、LinkExtractor を使用したルールによってページネーションに従い、特定の URL 形式で解析項目を呼び出します。

私のスパイダーコード:

scrapy scrapy-spider

2014-11-21T16:19:16.293

0 投票する

1 に答える

70 参照

python - ページの再帰的クロール

私の問題は次のとおりです。メインページにリスト (html - li) があり、リストのコンポーネントごとに別のページに入力し、情報を取得し、それを 1 つのアイテム要素にまとめて、他の要素とやり取りします。メインページリストの要素 (html - li)。私はこの最初のコードを作成しましたが、私は Python、Scrapy の初心者であり、コードを作成するのが難しいことがわかりました。

私はこの解決策を得ましたが、メインリスト要素ごとに 2 つの項目が生成されます。

'title'、'room'、'mclass'、'minAge'、'cover'、'sessions'、'trailer'、'synopsis' フィールドが入力された item 要素を 1 つだけ生成するのを手伝ってくれる人はいますか? 'title'、'room'、'mclass'、'minAge'、'cover'、'sessions' フィールドが入力された項目と、'trailer'、'synopsis' が入力された項目の代わりに?

2014-11-29T05:27:18.023

0 投票する

3 に答える

1966 参照

python - スクレイピー、Pythonでサイトマップスパイダーを使用して、異なるURL形式でサイトマップのURLを解析する

私はスクレイピー、パイソンでサイトマップスパイダーを使用しています。サイトマップは、URL の前に '//' が付いた通常とは異なる形式のようです:

myspider.py

このエラーが発生しています：

サイトマップスパイダーを使用して URL を手動で解析するにはどうすればよいですか?

python web-scraping scrapy sitemap scrapy-spider

2014-12-04T05:29:06.137

0 投票する

1 に答える

453 参照

python-2.7 - Scrapy-Scraper が実行されない

Beautiful Soup と Mechanized を使用して Python を実行できますが、Spray-Scraper を使用しようとすると、何らかの理由で動作しません。チュートリアルでスクレーパーをテストしようとするとどうなるかの例を次に示します。

プロジェクト名＆BOT名＝「tutorial」

以下のスクリプトは、私が使用した items.py と settings.py です。

アイテム.py

設定.py

CMD

python-2.7 web-scraping scrapy screen-scraping scrapy-spider

2014-12-10T16:40:23.930

0 投票する

1 に答える

241 参照

python - スクレイピースクリーンスクレーパーのエラー - 私の人生にとって何が悪いのかわかりません

このエラーの原因がわかりません。エラーは craig.py ファイルの 3 行目で発生していますが、不一致は見られません。

フォルダ構造

クレイグ（フォルダ）
- クモ (フォルダ)
  - 初期化.py
  - 初期化.pyc
  - クレイグ.py
  - クレイグ.pyc
- 初期化.py
- 初期化.pyc
- パイプライン.py
- 設定.py
- 設定.pyc
- スクレイピー.cfg

プロジェクト名: Craig ファイル名: Craig Spyder 名: Craig.py

クレイグ.py

アイテム.py

エラーは次のとおりです。

python python-2.7 scrapy screen-scraping scrapy-spider

2014-12-10T19:11:45.113

0 投票する

0 に答える

1343 参照

python - キャプチャの場合は Scrapy のログインと再試行

最初にログインして注文のリストを解析する必要があるスパイダーに取り組んでいます。スクレイピングしようとしているサイトは、ログインに成功した後、時々キャプチャを使用します。キャプチャのみを要求するか、キャプチャの詳細を使用して再度ログインします。

以下のスパイダーは期待どおりに動作し、ログインを試行し、check_login_responseメソッドで、ログインが成功したかどうかを確認し、そうでない場合は再度呼び出していますself.login()。通常、スパイダーには注文 URL のリストが与えられます。それらは実行時にメソッドで start_urls にロードされます__init___。

現在起こっていることは、スパイダーが実行され、parse_pageメソッドで停止することです。この行に出力された URL を確認できますlog.msg('request %s' % url)。しかし、スパイダーは、start_urls のリストを使用して parse メソッドを実行することはありません。

この問題は、キャプチャの再試行が発生した場合にのみ発生します。通常のログインシナリオでは問題なく動作し、解析メソッドが呼び出されます。

アドバイスをお願いします。

PS Spider と CrawlSpider の両方のクラスを試しましたが、同じ結果が得られました

EDIT (コンソール出力の追加)

これは、キャプチャが検出された場合です。

これはキャプチャがない場合です

python web-scraping scrapy scrapy-spider

2014-12-15T23:43:42.740

1 2 3 4 5 6 7 8 9 10

問題タブ [scrapy-spider]

scrapy - Scrapy のクロールの再開は何もクロールせず、終了するだけです

python - ページの再帰的クロール

python - スクレイピー、Pythonでサイトマップスパイダーを使用して、異なるURL形式でサイトマップのURLを解析する

myspider.py

python-2.7 - Scrapy-Scraper が実行されない

python - スクレイピースクリーンスクレーパーのエラー - 私の人生にとって何が悪いのかわかりません

python - キャプチャの場合は Scrapy のログインと再試行

Reference