問題タブ [scrapy-splash]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - JavaScript コードを実行して条件に同意し、次のページを開く
「条件に同意する」ボタンをクリックして入力する必要がある Javacode でレンダリングされた Web サイトをクロールしたいと考えています。私は Scrapy と Splash を使用しており、'render.html' と 'execute' の両方のスプラッシュ エンドポイントを使用して JavaScript コードを実行しようとしました。どちらの場合も、出力は開始ページです。なぜこれが期待どおりに機能しないのですか?
url = 「規約に同意する」ボタンのある開始ページ。
url/index.aspx = 表示したいページ。
render.html の使用:
またはexecuteとluaを使用して:
「url」はレンダリングされるページです。
http://blog.scrapinghub.com/2015/03/02/handling-javascript-in-scrapy-with-splash/の例に従い、jquery で次の lua 文字列を使用すると、次のようになります。
または、jquery コードを次のように使用します。
同じ結果が得られます。レンダリングされたページは「url」です。
web-scraping - Scrapy シェルと Scrapy スプラッシュ
scrapy-splash
ミドルウェアを使用しSplash
て、ドッカー コンテナー内で実行されている JavaScript エンジンを介してスクレイピングされた HTML ソースを渡してきました。
スパイダーでスプラッシュを使用する場合は、いくつかの必要なプロジェクト設定を構成し、Request
特定のmeta
引数を指定します。
これは文書化されているとおりに機能します。しかし、Scrapy Shellscrapy-splash
内でどのように使用できますか?
scrapy - 最初の URL の後に Splash がスタックする CrawlSpider
いくつかの応答をスプラッシュでレンダリングする必要があるスクレイピースパイダーを書いています。私のスパイダーは CrawlSpider に基づいています。クロール スパイダーにフィードするには、start_url 応答をレンダリングする必要があります。残念ながら、最初の応答のレンダリング後にクロール スパイダーが停止します。何がうまくいかないのですか?
python - 複数のクリックと訪問を行うスプラッシュ lua スクリプト
Google Scholar の検索結果をクロールして、検索に一致する各結果のすべての BiBTeX 形式を取得しようとしています。現在、Splash を備えた Scrapy クローラーを使用しています。href
引用のBibTeX形式を取得する前に、「引用」リンクをクリックしてモーダルウィンドウをロードするluaスクリプトがあります。しかし、複数の検索結果と複数の「引用」リンクがあることを確認すると、それらすべてをクリックして、個々の BibTeX ページをロードする必要があります。
ここに私が持っているものがあります:
呼び出しを実行するときに「Cite」リンクのインデックスを lua スクリプトに渡す必要があると考えていquerySelectorAll
ますが、関数に別の変数を渡す方法が見つからないようです。history.back()
また、BibTeX を取得した後、元の結果ページに戻るには、汚い JavaScript を実行する必要があると思いますが、これを処理するよりエレガントな方法があると思います。
proxy - スクレイピー+スプラッシュでクロールするときに複数のプロキシを使用するには?
Scrapy + Splash でクロールし、複数のプロキシを使用したい。ただし、スプラッシュは単一のプロキシhttps://splash.readthedocs.io/en/stable/api.html#proxy-profilesのみをサポートします。
スクレイピー+スプラッシュでクロールするときに複数のプロキシを使用するには?
web-scraping - スプラッシュでポップアップコンテンツを取得する方法
スプラッシュでスクレイピーを使い始めましたが、スプラッシュが複数のウィンドウとポップアップを処理できるかどうか疑問に思っていました。例として、その lua スクリプトを使用して、Google ウィンドウのコンテンツを取得しようとします。