問題タブ [scrapy-spider]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1091 参照

python - Scrapy:itemloader icw を Postgres パイプラインで使用する最良の方法は何ですか?

itemLoader を使用して、Scrapy の空のアイテムにデフォルト値を与えようとしています。items.py のように:

したがって、prod_specs が設定されていない場合は、空のオブジェクトを指定する必要があります。しかし、それは機能していません。フィールドをデータベースに保存しようとするとitem['prod_specs'].

キーが存在しないというエラーが表示されます。

設定されていない場合は、他のフィールドも同様です。item['prod_specs']items.pyのようにitemLoaderではなく、使用しているという事実がエラーを引き起こしていると思います。確信はないけど。

それで、あなたたちはどう思いますか?そして、これに対する解決策はありますか?

0 投票する
1 に答える
6036 参照

python - Scrapy エラー: スパイダーが見つかりません

私はすでに同様の質問を見て、与えられた答えを試しましたが、役に立ちませんでした。誰かがこれを修正するのを手伝ってもらえますか?

ありがとう

0 投票する
1 に答える
898 参照

python - スクレイピーを使用して同じ名前の複数の一意のアイテムをクロールする

基本的にレビューが含まれている次のURLをクロールする必要があります。そこにあるすべてのレビューには、レビュー ライターの名前、レビューのタイトル、およびレビュー自体があります。

このタスクを実行するために「python-scrapy」を選択しました。

しかし、言及されたURLは開始URLではなく、基本的なparse方法から取得します。解析すると、a を初期化しitemLoderます。metaそこでいくつかのアイテムを抽出し、レスポンス経由でアイテムを渡します。(抽出されたフィールドには、ホテル名、住所、価格などの情報が含まれています...)

「review_member_name」、「review_quote」、「review_review」というアイテムも宣言しました

ページには複数のレビューがあり、レビューのレビュー ID は から取得できますresponse.url。(以下の parse メソッドに示されています)

多くのレビューがあり、すべてが同じアイテム名を共有するため、アイテムが連結されますが、これは起こるべきではありません。誰でもこれを解決する方法を提案できますか?

以下はparse_reviewの私のソースです。

以下は私のitems.jsonです(「review_review」は削除されており、parseメソッドからのアイテムも削除されています)

[{"review_quote": "\u201c Fabulous service \u201d", "review_member_name": "VimalPrakash"}, {"review_quote": "\u201c Fabulous service \u201d \u201c Indian hospitality at its best, and honestly the best coffee in India \u201d", "review_member_name": "VimalPrakash Jessica P"}, {"review_quote": "\u201c Fabulous service \u201d \u201c Indian hospitality at its best, and honestly the best coffee in India \u201d \u201c Nice hotel in a central location \u201d", "review_member_name": "VimalPrakash Jessica P VikInd"}]

そして、この質問にふさわしいタイトルを提案してください。

0 投票する
0 に答える
253 参照

python - SgmlLinkExtractor 'allow' 定義が Scrapy で機能しない

Windows Vista 64 ビットで Python.org バージョン 2.7 64 ビットを使用しています。SgmlLinkExtractor を定義した方法がサイトを正しくクロールしていない次の Scrapy コードがあります。

SgmlLinkExtractor が定義されているもののいくつかの異なるバージョンを試しましたが、コマンド シェルに出力しているように見えるのは次のとおりです。

これが機能しない理由について、ここで明らかなことを誰かが見ることができますか?

ありがとう

0 投票する
0 に答える
1470 参照

scrapy - Scrapy Spider がクロールの途中で動けなくなる

私はスクレイピーが初めてで、ウェブサイトをクロールし、そこからすべての電話番号、電子メール、PDFなどを取得するスパイダーを構築しようとしています(メインページからすべてのリンクをたどってほしいので、ドメイン全体を検索します)。

この質問には同様の問題がありましたが、解決されませんでした:なぜスクレイピー クローラーが停止するのですか?

これが私のスパイダーのコードです:

ハングする前のクロール ログの最後の部分を次に示します。

0 投票する
1 に答える
1354 参照

python - 実行中のスパイダーの数を変更する

私のプロジェクトには約50個のスパイダーがあり、現在scrapydサーバーを介してそれらを実行しています。使用しているリソースの一部がロックされ、スパイダーが失敗したり、非常に遅くなるという問題が発生しています。私は、scrapyd に一度に実行中のスパイダーを 1 つだけにして、残りを保留中のキューに残すように指示する方法があることを望んでいました。ドキュメントには、このための構成オプションがありませんでした。どんな助けでも大歓迎です!