問題タブ [scrapy-shell]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1986 参照

python - Scrapy FormRequest 、通貨変更フォームデータで投稿リクエスト (FormRequest) を送信しようとしています

以下のウェブサイトをスクレイピングしようとしています が、左上の設定フォームから通貨を「SAR」に変更して、次のようなスクレイピー リクエストを送信してみました。

そして私はまだEGとして価格を取得します

私はまた、次のような指定されたフォームデータで投稿リクエストを送信しようとしました:

それでもうまくいかず、FormRequest.from_response() を使用しようとしましたが、うまくいきませんでした.IDはいくつかのアドバイスが本当に好きです.スクレイピーフォームリクエストは初めてです.

0 投票する
2 に答える
2108 参照

javascript - スクレイピーはhtml要素を検出しませんが、ソースページに表示されます

通常のブラウザでは正常に機能するリクエストがありますが、スクレイピー シェルでは機能しません。「スクレイピー シェル」または「スクレイピー クロール」を使用すると、HTML ブロック全体がすぐに消えてしまいます。私は確かに禁止されていません。

以下は、mozilla のような通常のブラウザを使用して、以下のリンク (フランスの Web サイト プロパティ オークション) のこちらにリダイレクトされる前の github (写真付き) の問題です。

https://github.com/scrapy/scrapy/issues/2109

簡単に言うと、オークションサイトをスクレイピングしてみました。また、通常のブラウザでは、すべてのデータが正常に表示されます。しかし、scrapy シェルで確認したところ、response.body から HTML ブロック全体が欠落しています。

次のように入力してユーザーエージェントを変更した場合でも:

潜在的なヘッダーの問題またはJavaScriptの問題であると言われたため、ユーザーエージェントを変更しようとしました。

さらに、端末のこのメッセージエラーは次のように述べています。

[1:1:0710/114628:ERROR:PlatformKeyboardEvent.cpp(117)] 静的 PlatformEvent::Modifiers で実装されていません。blink::PlatformKeyboardEvent::getCurrentModifierState()

DOWNLOAD_HANDLERS: {'s3': None} 念のため、エラー メッセージを取り除くために設定を追加する必要がありました。

私はubuntu 14で実行しており、scrapy 1.03でanacondaをインストールしています。

人々を喜ばせるポイントをどこで見逃していますか?


編集: ヘッダー ソリューションを確認するために、うまく機能する mozilla ブラウザーから同じヘッダーをコピーして、私のスクレイピー シェルに貼り付けます。これが私のコードです:

HTML データがまだありません。

JavaScriptがスクレイピーの動作を妨げる可能性はありますか?


編集:

また、docker の前提条件を使用して、scrapy-splash をインストールしました。

そして、スプラッシュサーバーを使用してこの問題を処理しようとしました。

それでも同じ問題!! これが私のコードです:

要約すると、これは私がしたことです:

  • ヘッダーを Mozilla ブラウザーと同じになるように変更しました (動作します)。
  • Splashをインストールして、それを使ってjavascriptを処理しようとしました
0 投票する
1 に答える
1882 参照

python - Scrapy - シェルでの 301 リダイレクト

次の問題の解決策が見つかりません。Scrapy (最新バージョン) を使用しており、スパイダーをデバッグしようとしています。->を使用scrapy shell https://jigsaw.w3.org/HTTP/300/301.htmlすると、リダイレクトに従いません (データを取得するためにデフォルトのスパイダーを使用しています)。スパイダーを実行している場合、301 に従いますが、デバッグできません。

最終ページをデバッグできるように、シェルが 301 に従うようにするにはどうすればよいでしょうか?

0 投票する
0 に答える
484 参照

python - Amazonのスクレイピー301リダイレクト

私はスクレイピーのチュートリアルに従おうとしていますが、オンライン チュートリアルで使用されている dmoz ではなく、例として amazon を使用しています。

次のコマンドを実行すると、301 リダイレクトが発生することに気付きました。

スクレイピーを使用してこのAmazonページの301リダイレクトを取得する理由を誰か説明できますか?

0 投票する
1 に答える
403 参照

python - スクレイピーでマッチの行番号を取得する方法

次の例を使用します。

どこにselectors-sample1-htmlある:

Scrapy 1.1.2 を使用してマッチの行番号を取得することは可能ですか? たとえば、次のようなものです。

ありがとうございました!

0 投票する
2 に答える
9805 参照

python - スクレイピー シェルを起動するときに robots.txt を無効にする方法は?

いくつかの Web サイトで問題なく Scrapy シェルを使用していますが、ロボット (robots.txt) がサイトへのアクセスを許可しない場合に問題が発生します。Scrapy によるロボットの検出を無効にするにはどうすればよいですか (存在を無視します)? 前もって感謝します。 Scrapy によって作成されたプロジェクトについて話しているのではなく、Scrapy シェル コマンド:scrapy shell 'www.example.com'

0 投票する
1 に答える
318 参照

python-2.7 - スクレイピーシェルを使用してウェブサイトから製品名をスクレイピングする方法

このリンクから製品名を取得するのを手伝ってください: http://www.gap.com/browse/category.do?cid=5168&scrollTo=product353401012&scrollTo=product353401012#pageId=0&department=75

製品名は div にある class="product-card--name" に含まれています。実行すると :response.css('div.product-card--name::text').extract() 、それ空のリストを返します。

css コマンドと xpath コマンドの両方を提供してください。