問題タブ [scrapy-spider]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Scrapy:itemloader icw を Postgres パイプラインで使用する最良の方法は何ですか?
itemLoader を使用して、Scrapy の空のアイテムにデフォルト値を与えようとしています。items.py のように:
したがって、prod_specs が設定されていない場合は、空のオブジェクトを指定する必要があります。しかし、それは機能していません。フィールドをデータベースに保存しようとするとitem['prod_specs'].
キーが存在しないというエラーが表示されます。
設定されていない場合は、他のフィールドも同様です。item['prod_specs']
items.pyのようにitemLoaderではなく、使用しているという事実がエラーを引き起こしていると思います。確信はないけど。
それで、あなたたちはどう思いますか?そして、これに対する解決策はありますか?
python - Scrapy エラー: スパイダーが見つかりません
私はすでに同様の質問を見て、与えられた答えを試しましたが、役に立ちませんでした。誰かがこれを修正するのを手伝ってもらえますか?
ありがとう
python - スクレイピーを使用して同じ名前の複数の一意のアイテムをクロールする
基本的にレビューが含まれている次のURLをクロールする必要があります。そこにあるすべてのレビューには、レビュー ライターの名前、レビューのタイトル、およびレビュー自体があります。
このタスクを実行するために「python-scrapy」を選択しました。
しかし、言及されたURLは開始URLではなく、基本的なparse
方法から取得します。解析すると、a を初期化しitemLoder
ます。meta
そこでいくつかのアイテムを抽出し、レスポンス経由でアイテムを渡します。(抽出されたフィールドには、ホテル名、住所、価格などの情報が含まれています...)
「review_member_name」、「review_quote」、「review_review」というアイテムも宣言しました
ページには複数のレビューがあり、レビューのレビュー ID は から取得できますresponse.url
。(以下の parse メソッドに示されています)
多くのレビューがあり、すべてが同じアイテム名を共有するため、アイテムが連結されますが、これは起こるべきではありません。誰でもこれを解決する方法を提案できますか?
以下はparse_reviewの私のソースです。
以下は私のitems.jsonです(「review_review」は削除されており、parseメソッドからのアイテムも削除されています)
[{"review_quote": "\u201c Fabulous service \u201d", "review_member_name": "VimalPrakash"},
{"review_quote": "\u201c Fabulous service \u201d \u201c Indian hospitality at its best, and honestly the best coffee in India \u201d", "review_member_name": "VimalPrakash Jessica P"},
{"review_quote": "\u201c Fabulous service \u201d \u201c Indian hospitality at its best, and honestly the best coffee in India \u201d \u201c Nice hotel in a central location \u201d", "review_member_name": "VimalPrakash Jessica P VikInd"}]
そして、この質問にふさわしいタイトルを提案してください。
python - SgmlLinkExtractor 'allow' 定義が Scrapy で機能しない
Windows Vista 64 ビットで Python.org バージョン 2.7 64 ビットを使用しています。SgmlLinkExtractor を定義した方法がサイトを正しくクロールしていない次の Scrapy コードがあります。
SgmlLinkExtractor が定義されているもののいくつかの異なるバージョンを試しましたが、コマンド シェルに出力しているように見えるのは次のとおりです。
これが機能しない理由について、ここで明らかなことを誰かが見ることができますか?
ありがとう
scrapy - Scrapy Spider がクロールの途中で動けなくなる
私はスクレイピーが初めてで、ウェブサイトをクロールし、そこからすべての電話番号、電子メール、PDFなどを取得するスパイダーを構築しようとしています(メインページからすべてのリンクをたどってほしいので、ドメイン全体を検索します)。
この質問には同様の問題がありましたが、解決されませんでした:なぜスクレイピー クローラーが停止するのですか?
これが私のスパイダーのコードです:
ハングする前のクロール ログの最後の部分を次に示します。
python - 実行中のスパイダーの数を変更する
私のプロジェクトには約50個のスパイダーがあり、現在scrapydサーバーを介してそれらを実行しています。使用しているリソースの一部がロックされ、スパイダーが失敗したり、非常に遅くなるという問題が発生しています。私は、scrapyd に一度に実行中のスパイダーを 1 つだけにして、残りを保留中のキューに残すように指示する方法があることを望んでいました。ドキュメントには、このための構成オプションがありませんでした。どんな助けでも大歓迎です!