問題タブ [scrapy-spider]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1431 参照

python - スパイダー全体のさまざまな機能でスクレイピーのアイテムを埋める

私がやりたいことは、item.py で定義された項目フィールドを Spider.py ファイル内のさまざまな関数で埋めることです。たとえば、すべてのリクエストが行われる start_requests 関数で、「item_id」というフィールドを埋めたいと思います。 '。

init 関数でアイテムのインスタンスを作成したことに注意してください。このようにして、item_id フィールドだけが入力され、次のパーサー メソッド (parse_search_result) に渡されます。item.py のその他のフィールドは、次の関数で入力され、別のパーサー メソッドに再度渡されます。それは合法的なものでしょうか?

0 投票する
1 に答える
1993 参照

python-2.7 - Scrapy プロジェクトの実行時に名前をインポートできません

私のプロジェクト名は NOTS です。

次のスクリプトは、spider.pyitems.pyが使用したものです。

spider.py:

items.py:

これを実行すると、次のエラーが発生します。

私は何を間違っていますか?

0 投票する
0 に答える
524 参照

python - Scrapy を使用して 2 レベルの sitemap.xml からリンクを取得する

sitemap.xml ファイルから投稿を取得する必要があります。sitemap.xml ファイルは、他のサイトマップ ファイルを指します。私のスパイダーは次のとおりで、メインのサイトマップ ファイルが指すサイトマップの 1 つで正常に動作します。

メインサイトマップファイルが指すサイトマップファイルをスパイダーがたどるようにするにはどうすればよいですか? メインのサイトマップ ファイルは次のとおりです。

0 投票する
1 に答える
9111 参照

python - Pythonのscrapy parse()関数、戻り値はどこに返されるの?

私は Scrapy を初めて使用します。この質問が些細なことでしたら申し訳ありません。公式ウェブページから Scrapy に関するドキュメントを読みました。ドキュメントに目を通してみると、次の例に出会いました。

parse メソッドがアイテムまたは/およびリクエストを返さなければならないことはわかっていますが、これらの戻り値はどこに返されるのでしょうか?

1つはアイテムで、もう1つはリクエストです。この2つのタイプは異なる方法で処理されると思います。 の場合、CrawlSpiderコールバック付きのルールがあります。このコールバックの戻り値はどうですか? どこへ ?と同じparse()

ドキュメントを読んでも、Scrapyの手順について非常に混乱しています....

0 投票する
1 に答える
702 参照

python - スクレイピーは認証後に間違ったページを解析します

私はこれに少し慣れていないので、Web からコードを借りてきました。
認証後にページの内容を解析しようとしていますが、ログインページしか取得できません。
正しくログインできているようです。最終的には、特定のテーブルが必要ですが、今のところ、ページ ダンプで満足しています。

ターミナルでの私の結果は次のとおりです。

0 投票する
1 に答える
39 参照

python - Python Scrapy allowed_damins 属性

スタックオーバーフローの質問の投稿情報を取得して、簡単なコードをコーディングして勉強しています。

allowed_domains = ["http://stackoverflow.com/questions/]スパイダーをベースにセットしました。そして、その parse() メソッドは、フォーマットの URL を持つリクエストのみを返します。"http://stackoverflow.com/questions/%d/" % no

私はそれがうまくいくと思った...多分許可されたドメインについて誤解している. parse() によって返されるすべてのリクエストは、allowed_domain によってフィルタリングされているようです。allowed_domain を削除した場合にのみ機能します。説明できますか..?私の些細な質問で申し訳ありません。

0 投票する
1 に答える
616 参照

scrapy - Scrapy からの出力なし

http://basketball.realgm.com/international/league/12/French-LNB-Pro-A/teamsなどの URL のリストからデータを取得して、すべてのチーム名を取得しようとしています。以下は私のスパイダーです。URL を実行していますが、データを取得していませんか?