Selenium の助けを借りて Web ページの Javascript コンテンツを処理する Scrapy スパイダーを作成しました。しかし、このスパイダーは一般的な Scrapy Crawler よりもかなり遅いことに気付きました。このため、私は 2 つのスパイダーを組み合わせたいと考えてCrawlSpider
います。すべてのリソースを取得するための共通のスパイダーと、Javascript を多用するページのためだけの Selenium スパイダーです。Web ページに Javascript が必要であり、大量に使用されているかどうかを検出しようとするパイプライン ステップを作成しました。これまでのところ、処理ステップに関する私のアイデアは失敗しました。
- 一部のページでは共通
<noscript>
タグを使用しています。 - 一部のページには、警告メッセージが表示されます
<div class="yt-alert-message" >
。 - ...
ページに Javascript が必要であることを示すには、非常に多くの方法があります。
- Javascript を広く使用しているページを「検出」する標準化された方法を知っていますか?
注: Selenium Spider でページを処理したいのは、Selenium Spider が非常に遅く、いくつかのページが適切なデザインにのみ使用するため、本当に必要な場合のみです。