問題タブ [scrapy-splash]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1295 参照

javascript - JavaScript コードを実行して条件に同意し、次のページを開く

「条件に同意する」ボタンをクリックして入力する必要がある Javacode でレンダリングされた Web サイトをクロールしたいと考えています。私は Scrapy と Splash を使用しており、'render.html' と 'execute' の両方のスプラッシュ エンドポイントを使用して JavaScript コードを実行しようとしました。どちらの場合も、出力は開始ページです。なぜこれが期待どおりに機能しないのですか?

url = 「規約に同意する」ボタンのある開始ページ。

url/index.aspx = 表示したいページ。

render.html の使用:

またはexecuteとluaを使用して:

「url」はレンダリングされるページです。

http://blog.scrapinghub.com/2015/03/02/handling-javascript-in-scrapy-with-splash/の例に従い、jquery で次の lua 文字列を使用すると、次のようになります。

または、jquery コードを次のように使用します。

同じ結果が得られます。レンダリングされたページは「url」です。

0 投票する
3 に答える
10979 参照

web-scraping - Scrapy シェルと Scrapy スプラッシュ

scrapy-splashミドルウェアを使用しSplashて、ドッカー コンテナー内で実行されている JavaScript エンジンを介してスクレイピングされた HTML ソースを渡してきました。

スパイダーでスプラッシュを使用する場合は、いくつかの必要なプロジェクト設定を構成し、Request特定のmeta引数を指定します。

これは文書化されているとおりに機能します。しかし、Scrapy Shellscrapy-splash内でどのように使用できますか?

0 投票する
2 に答える
1880 参照

scrapy - 最初の URL の後に Splash がスタックする CrawlSpider

いくつかの応答をスプラッシュでレンダリングする必要があるスクレイピースパイダーを書いています。私のスパイダーは CrawlSpider に基づいています。クロール スパイダーにフィードするには、start_url 応答をレンダリングする必要があります。残念ながら、最初の応答のレンダリング後にクロール スパイダーが停止します。何がうまくいかないのですか?

0 投票する
1 に答える
4681 参照

python - 複数のクリックと訪問を行うスプラッシュ lua スクリプト

Google Scholar の検索結果をクロールして、検索に一致する各結果のすべての BiBTeX 形式を取得しようとしています。現在、Splash を備えた Scrapy クローラーを使用しています。href引用のBibTeX形式を取得する前に、「引用」リンクをクリックしてモーダルウィンドウをロードするluaスクリプトがあります。しかし、複数の検索結果と複数の「引用」リンクがあることを確認すると、それらすべてをクリックして、個々の BibTeX ページをロードする必要があります。

ここに私が持っているものがあります:

呼び出しを実行するときに「Cite」リンクのインデックスを lua スクリプトに渡す必要があると考えていquerySelectorAllますが、関数に別の変数を渡す方法が見つからないようです。history.back()また、BibTeX を取得した後、元の結果ページに戻るには、汚い JavaScript を実行する必要があると思いますが、これを処理するよりエレガントな方法があると思います。

0 投票する
1 に答える
1819 参照

proxy - スクレイピー+スプラッシュでクロールするときに複数のプロキシを使用するには?

Scrapy + Splash でクロールし、複数のプロキシを使用したい。ただし、スプラッシュは単一のプロキシhttps://splash.readthedocs.io/en/stable/api.html#proxy-profilesのみをサポートします。

スクレイピー+スプラッシュでクロールするときに複数のプロキシを使用するには?

0 投票する
1 に答える
583 参照

web-scraping - スプラッシュでポップアップコンテンツを取得する方法

スプラッシュでスクレイピーを使い始めましたが、スプラッシュが複数のウィンドウとポップアップを処理できるかどうか疑問に思っていました。例として、その lua スクリプトを使用して、Google ウィンドウのコンテンツを取得しようとします。