問題タブ [scrapy-splash]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
django - Scrapy-splash で DDS を構成します。エラー: ベース オブジェクトがありません
LS、
Django-Dynamic-Scraper をインストールしました。そして、スプラッシュ経由で Javascript をレンダリングしたいと思います。そのため、scrapy-splash をインストールし、docker スプラッシュ イメージをインストールしました。下の画像は、docker コンテナーにアクセスできることを示しています。
それにもかかわらず、DDS 経由でテストすると、次のエラーが返されます。
実行時:
DDS 管理ページを構成し、チェックボックスをオンにして JavaScript をレンダリングしました。
私はスクレイピースプラッシュからの設定に従いました:
DDS/scrapy-splash を正しく設定すると、必要な引数がスプラッシュ Docker コンテナーに送信されてレンダリングされると思いますが、これは当てはまりますか?
私は何が欠けていますか?スプラッシュ スクリプトを使用してスパイダーを調整する必要がありますか?
scrapy - スクレイピースプラッシュは無限スクロールをどのように処理しますか?
Webページを下にスクロールして生成されたコンテンツをリバースエンジニアリングしたい。問題は url にありhttps://www.crowdfunder.com/user/following_page/80159?user_id=80159&limit=0&per_page=20&screwrand=933
ます。screwrand
パターンに従っていないように見えるため、URL の反転は機能しません。Splashを使った自動レンダリングを検討しています。Splash を使用してブラウザのようにスクロールするには? どうもありがとう!2 つのリクエストのコードは次のとおりです。
python - スクレイピーとスプラッシュでJavaScriptを使用して同じページを再帰的にクロールする
次のページに移動するための JavaScript を含むサイトをクロールしています。スプラッシュを使用して、最初のページで JavaScript コードを実行しています。でも2ページ目まで行けました。しかし、私は 3,4,5.... ページに行くことができません。1 ページだけでクロールが停止します。
私がクロールしているリンク: http://59.180.234.21:8788/user/viewallrecord.aspx
コード:
私はスクレイピーとスプラッシュの両方の初心者です。優しくしてください。ありがとうございました
javascript - Splash HTTP レンダリング サービスで外部 JavaScript リソースを動的にロードする
現在、リクエストをレンダリングするヘッドレス ブラウザとしてSplash HTTP APIを使用しています。 ページの読み込みが完了した後、ページがレンダリングされる前に、ページ コンテキスト内でカスタム Javascript コードを評価できるエンドポイントrender.html を js_sourceと共に使用しています。
ページの読み込み後にjQueryを読み込むなど、外部リソースに追加のリクエストを行う必要があります。
問題は、そのようにすることによって、オブジェクトがページ コンテキスト内で使用可能にならないことです。スクリプトは、レンダリングされた最終的な HTML ソースの HEAD 要素内に追加されているように見えます。
以下で説明する両方のメソッドを使用してコールバックを設定して、jQueryのメソッドにアクセスする前にスクリプトが読み込まれるようにしました。ただし、コールバックは両方のシナリオで呼び出されません。
前述のスクリプトをChromeのコンソールで実行すると、必要な処理が実行され、すぐに jQuery リソースがページ コンテキスト内で使用できるようになります。
python - Scrapy:フォームリクエストを生成して何も出力しませんか?
私はウェブサイトをスクラップするためのスパイダーを書いています:
最初の URL www.parenturl.com は parse 関数を呼び出します。そこから、parse2 関数へのコールバックがある URL www.childurl.com を抽出し、dict を返します。
質問 1) dict 値を、解析関数で親 URL から抽出した他の 7 つの値と共に mysql データベースに格納する必要がありますか? (response_url は何も出力しません)