問題タブ [scrapyjs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1024 参照

python - ScrapyJS のインストール - Python の初心者

このスクレイピー アドオン (またはそれが何であるか) を使用しようとしています: Scrapyjs

ただし、インストール手順はなく、Python は初めてです。私が見逃している基本的なものはありますか?これをスクレイピープロジェクトと統合するにはどうすればよいですか。

注: ミドルウェア バージョンではなく、Scrapy ダウンロード ハンドラーを使用することをお勧めします。(間違っている場合は修正してください)。

0 投票する
0 に答える
661 参照

python - ScrapyJs Javascript が有効になっていません

JavaScript コードを含む Web サイトと、JavaScript コードで準備された Web サイトのコンテンツをクロールしようとしています。

Scrapy と Splash をインストールしました。

スプラッシュはこのコードで実行されています

ウェブサイトのコードを取得しようとすると、render.html に「Javascript が有効になっていません。ブラウザで JavaScript を有効にしてください」と表示されます。

すべての設定はOKです。

私は一度ウェブサイトをうまくスクラップしました。その後、「お使いのブラウザで Javascript が有効になっていません」というエラーが表示されます。

問題の解決に役立つ場合、これはページをレンダリングしたときのスプラッシュ出力です。

何が問題なのか理解できませんでした。何か助けはありますか?

さらに詳しい情報

仮想マシンを削除しました。IPアドレスが変更され、再試行しました。初めて結果を出すことに成功。しかし、2 回目のリクエストでは何も取得できませんでした。Web サイトが私の IP アドレスをブロックしていると思います。

0 投票する
1 に答える
2412 参照

python - スプラッシュによる Scrapyjs クロール onclick ページの使用

次のようなJavaScriptを使用するページからURLを取得しようとしています

これは、scrapyjs をスプラッシュで使用した私のコードです

私が書くなら

それが動作します

ページ内のテキストを処理できるようですが、URLを取得できませんgo1()

内部の URL を取得したい場合はどうすればよいですかgo1()

ありがとう!

0 投票する
1 に答える
5041 参照

javascript - Scrapyjs + スプラッシュ クリック コントローラー ボタン

こんにちは、Scrapyjs + Splash をインストールしました。次のコードを使用します

これまでのところ正常に動作しますが、ID も実際の href も持たないコントローラーの「前へ」ボタンをクリックしたいと思います。

私は試してみました

そしてその

しかし、どちらも成功しませんでした。

0 投票する
2 に答える
2762 参照

python - Splashを使用してJavascriptで生成されたフォームへのScrapy POST

フォームに投稿するだけのはずの次のスパイダーがあります。私はそれを機能させることができないようです。Scrapy で実行すると、応答が表示されません。誰かが私がこれでどこが間違っているのか教えてもらえますか?

これが私のスパイダーコードです:

私が得るのは、次のような応答です。 結果が見つかりません

私が得るべきものは、次のような結果です: 見つかった結果

mydealer_search_page()を Splash に置き換えると、次のようになります。

次の警告が表示されます。

inspect_response()そして、プログラムは my in my process()functionに到達する前に終了します。

エラーは、スプラッシュがまだサポートされていないことを示しPOSTています。Splashこのユースケースで機能しますか、それとも使用する必要がありますSeleniumか?

0 投票する
1 に答える
924 参照

scrapy - クリックイベントの後に、スプラッシュ+スクレイピーjs +スクレイピーから、イールドリクエストなしでhtmlソースコードを取得するにはどうすればよいですか?

セレンphantomjsを使用して動的Webサイトのスクレイピングをscrapyjsに変更しようとしています。しかし問題は、スプラッシュでクリック イベントを記述する場合、yield リクエストが必要になることです。yield リクエストを与えると、最初のページがレンダリングされます。そのため、ソース コードではクリック イベントの変更は見られません。つまり、Web ページを再レンダリングする必要はありません。セレンで可能です。スプラッシュで利用できる同じ機能はありますか?

0 投票する
3 に答える
4183 参照

python - ScrapyJS - ページの読み込みを適切に待つ方法は?

ScrapyJS と Splash を使用してフォーム送信ボタンのクリックをシミュレートしています

を実行した後splash:runjs(js)、結果を取得しよsplash:wait(5)うとしています。splash:wait_for_resumeこれは常に機能するとは限りません (ネットワーク遅延)。より良い方法はありますか?

0 投票する
1 に答える
7279 参照

python-2.7 - python-requests でスプラッシュを使用するには?

このようなリクエストでスプラッシュを使用したい

しかし、私はこのエラーがあります

これがscrapy.Requestで機能することは知っていますが、リクエストで使用したい

0 投票する
1 に答える
1186 参照

python - スクレイピーとスプラッシュでJavaScriptを使用して同じページを再帰的にクロールする

次のページに移動するための JavaScript を含むサイトをクロールしています。スプラッシュを使用して、最初のページで JavaScript コードを実行しています。でも2ページ目まで行けました。しかし、私は 3,4,5.... ページに行くことができません。1 ページだけでクロールが停止します。

私がクロールしているリンク: http://59.180.234.21:8788/user/viewallrecord.aspx

コード:

私はスクレイピーとスプラッシュの両方の初心者です。優しくしてください。ありがとうございました