問題タブ [scrapyjs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - ScrapyJS のインストール - Python の初心者
このスクレイピー アドオン (またはそれが何であるか) を使用しようとしています: Scrapyjs。
ただし、インストール手順はなく、Python は初めてです。私が見逃している基本的なものはありますか?これをスクレイピープロジェクトと統合するにはどうすればよいですか。
注: ミドルウェア バージョンではなく、Scrapy ダウンロード ハンドラーを使用することをお勧めします。(間違っている場合は修正してください)。
python - ScrapyJs Javascript が有効になっていません
JavaScript コードを含む Web サイトと、JavaScript コードで準備された Web サイトのコンテンツをクロールしようとしています。
Scrapy と Splash をインストールしました。
スプラッシュはこのコードで実行されています
ウェブサイトのコードを取得しようとすると、render.html に「Javascript が有効になっていません。ブラウザで JavaScript を有効にしてください」と表示されます。
すべての設定はOKです。
私は一度ウェブサイトをうまくスクラップしました。その後、「お使いのブラウザで Javascript が有効になっていません」というエラーが表示されます。
問題の解決に役立つ場合、これはページをレンダリングしたときのスプラッシュ出力です。
何が問題なのか理解できませんでした。何か助けはありますか?
さらに詳しい情報
仮想マシンを削除しました。IPアドレスが変更され、再試行しました。初めて結果を出すことに成功。しかし、2 回目のリクエストでは何も取得できませんでした。Web サイトが私の IP アドレスをブロックしていると思います。
python - スプラッシュによる Scrapyjs クロール onclick ページの使用
次のようなJavaScriptを使用するページからURLを取得しようとしています
これは、scrapyjs をスプラッシュで使用した私のコードです
私が書くなら
それが動作します
ページ内のテキストを処理できるようですが、URLを取得できませんgo1()
内部の URL を取得したい場合はどうすればよいですかgo1()
ありがとう!
javascript - Scrapyjs + スプラッシュ クリック コントローラー ボタン
こんにちは、Scrapyjs + Splash をインストールしました。次のコードを使用します
これまでのところ正常に動作しますが、ID も実際の href も持たないコントローラーの「前へ」ボタンをクリックしたいと思います。
私は試してみました
そしてその
しかし、どちらも成功しませんでした。
python - Splashを使用してJavascriptで生成されたフォームへのScrapy POST
フォームに投稿するだけのはずの次のスパイダーがあります。私はそれを機能させることができないようです。Scrapy で実行すると、応答が表示されません。誰かが私がこれでどこが間違っているのか教えてもらえますか?
これが私のスパイダーコードです:
mydealer_search_page()
を Splash に置き換えると、次のようになります。
次の警告が表示されます。
inspect_response()
そして、プログラムは my in my process()
functionに到達する前に終了します。
エラーは、スプラッシュがまだサポートされていないことを示しPOST
ています。Splash
このユースケースで機能しますか、それとも使用する必要がありますSelenium
か?
scrapy - クリックイベントの後に、スプラッシュ+スクレイピーjs +スクレイピーから、イールドリクエストなしでhtmlソースコードを取得するにはどうすればよいですか?
セレンphantomjsを使用して動的Webサイトのスクレイピングをscrapyjsに変更しようとしています。しかし問題は、スプラッシュでクリック イベントを記述する場合、yield リクエストが必要になることです。yield リクエストを与えると、最初のページがレンダリングされます。そのため、ソース コードではクリック イベントの変更は見られません。つまり、Web ページを再レンダリングする必要はありません。セレンで可能です。スプラッシュで利用できる同じ機能はありますか?
python - ScrapyJS - ページの読み込みを適切に待つ方法は?
ScrapyJS と Splash を使用してフォーム送信ボタンのクリックをシミュレートしています
を実行した後splash:runjs(js)
、結果を取得しようとしています。splash:wait(5)
splash:wait_for_resume
これは常に機能するとは限りません (ネットワーク遅延)。より良い方法はありますか?
python - スクレイピーとスプラッシュでJavaScriptを使用して同じページを再帰的にクロールする
次のページに移動するための JavaScript を含むサイトをクロールしています。スプラッシュを使用して、最初のページで JavaScript コードを実行しています。でも2ページ目まで行けました。しかし、私は 3,4,5.... ページに行くことができません。1 ページだけでクロールが停止します。
私がクロールしているリンク: http://59.180.234.21:8788/user/viewallrecord.aspx
コード:
私はスクレイピーとスプラッシュの両方の初心者です。優しくしてください。ありがとうございました