問題タブ [scrapy-spider]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1529 問題

0 投票する

1 に答える

1091 参照

python - Scrapy:itemloader icw を Postgres パイプラインで使用する最良の方法は何ですか?

itemLoader を使用して、Scrapy の空のアイテムにデフォルト値を与えようとしています。items.py のように:

したがって、prod_specs が設定されていない場合は、空のオブジェクトを指定する必要があります。しかし、それは機能していません。フィールドをデータベースに保存しようとするとitem['prod_specs'].

キーが存在しないというエラーが表示されます。

設定されていない場合は、他のフィールドも同様です。item['prod_specs']items.pyのようにitemLoaderではなく、使用しているという事実がエラーを引き起こしていると思います。確信はないけど。

それで、あなたたちはどう思いますか？そして、これに対する解決策はありますか？

2014-07-11T09:45:41.010

0 投票する

1 に答える

6036 参照

python - Scrapy エラー: スパイダーが見つかりません

私はすでに同様の質問を見て、与えられた答えを試しましたが、役に立ちませんでした。誰かがこれを修正するのを手伝ってもらえますか?

ありがとう

python web-scraping scrapy scrapy-spider

2014-07-14T14:17:52.960

0 投票する

1 に答える

898 参照

python - スクレイピーを使用して同じ名前の複数の一意のアイテムをクロールする

基本的にレビューが含まれている次のURLをクロールする必要があります。そこにあるすべてのレビューには、レビューライターの名前、レビューのタイトル、およびレビュー自体があります。

このタスクを実行するために「python-scrapy」を選択しました。

しかし、言及されたURLは開始URLではなく、基本的なparse方法から取得します。解析すると、a を初期化しitemLoderます。metaそこでいくつかのアイテムを抽出し、レスポンス経由でアイテムを渡します。(抽出されたフィールドには、ホテル名、住所、価格などの情報が含まれています...)

「review_member_name」、「review_quote」、「review_review」というアイテムも宣言しました

ページには複数のレビューがあり、レビューのレビュー ID はから取得できますresponse.url。(以下の parse メソッドに示されています)

多くのレビューがあり、すべてが同じアイテム名を共有するため、アイテムが連結されますが、これは起こるべきではありません。誰でもこれを解決する方法を提案できますか?

以下はparse_reviewの私のソースです。

以下は私のitems.jsonです（「review_review」は削除されており、parseメソッドからのアイテムも削除されています）

[{"review_quote": "\u201c Fabulous service \u201d", "review_member_name": "VimalPrakash"}, {"review_quote": "\u201c Fabulous service \u201d \u201c Indian hospitality at its best, and honestly the best coffee in India \u201d", "review_member_name": "VimalPrakash Jessica P"}, {"review_quote": "\u201c Fabulous service \u201d \u201c Indian hospitality at its best, and honestly the best coffee in India \u201d \u201c Nice hotel in a central location \u201d", "review_member_name": "VimalPrakash Jessica P VikInd"}]

そして、この質問にふさわしいタイトルを提案してください。

python scrapy web-crawler scrapy-spider

2014-07-15T09:27:43.910

0 投票する

0 に答える

253 参照

python - SgmlLinkExtractor 'allow' 定義が Scrapy で機能しない

Windows Vista 64 ビットで Python.org バージョン 2.7 64 ビットを使用しています。SgmlLinkExtractor を定義した方法がサイトを正しくクロールしていない次の Scrapy コードがあります。

SgmlLinkExtractor が定義されているもののいくつかの異なるバージョンを試しましたが、コマンドシェルに出力しているように見えるのは次のとおりです。

これが機能しない理由について、ここで明らかなことを誰かが見ることができますか?

ありがとう

python web-scraping scrapy scrapy-spider

2014-07-19T23:26:54.590

0 投票する

0 に答える

1470 参照

scrapy - Scrapy Spider がクロールの途中で動けなくなる

私はスクレイピーが初めてで、ウェブサイトをクロールし、そこからすべての電話番号、電子メール、PDFなどを取得するスパイダーを構築しようとしています(メインページからすべてのリンクをたどってほしいので、ドメイン全体を検索します）。

この質問には同様の問題がありましたが、解決されませんでした:なぜスクレイピークローラーが停止するのですか?

これが私のスパイダーのコードです：

ハングする前のクロールログの最後の部分を次に示します。

scrapy scrapy-spider

2014-07-21T05:06:29.407

0 投票する

1 に答える

1354 参照

python - 実行中のスパイダーの数を変更する

私のプロジェクトには約50個のスパイダーがあり、現在scrapydサーバーを介してそれらを実行しています。使用しているリソースの一部がロックされ、スパイダーが失敗したり、非常に遅くなるという問題が発生しています。私は、scrapyd に一度に実行中のスパイダーを 1 つだけにして、残りを保留中のキューに残すように指示する方法があることを望んでいました。ドキュメントには、このための構成オプションがありませんでした。どんな助けでも大歓迎です！

python python-2.7 scrapy scrapyd scrapy-spider

2014-07-25T16:27:24.473

1 2 3 4 5 6 7 8 9 10

問題タブ [scrapy-spider]

python - Scrapy:itemloader icw を Postgres パイプラインで使用する最良の方法は何ですか?

python - Scrapy エラー: スパイダーが見つかりません

python - スクレイピーを使用して同じ名前の複数の一意のアイテムをクロールする

python - SgmlLinkExtractor 'allow' 定義が Scrapy で機能しない

scrapy - Scrapy Spider がクロールの途中で動けなくなる

python - 実行中のスパイダーの数を変更する

Reference