node.js - Node.io、JSDOM、または PhantomJs ? または、YQL-data.html.cssselect?

Question

特定の Web サイトをクロールして、関連情報を掘り出す必要があります。最初にサイトを検索して対応する URL を取得する必要があるようです。これをクロールすると詳細情報が得られます。

仮定しましょう、検索URLは

example.com/city1/search.html?cat=category1&locality=location1&page=1

つまり、city2、city3 などがあります。category は、場所とページの category2、category3 などになります。

すべての都市、カテゴリ、場所、およびページを収集しましたが、結果が null でなくなるまでインクリメントできます。

すべての URL を取得したら、各 URL から詳細情報を掘り出す必要があります。特定の必要な情報が JavaScript の一部として利用できることを確認しました。

今、node.io、jsdom、phantomjs を見てきました。私もyqlを見てきました。私はこれに慣れていないので、あなたの経験から、このシナリオで理想的なものを教えてください。

例を挙げることができれば、それは素晴らしいことです。

score 0 · Accepted Answer

PhantomJS は、指定した URL で javascript を実行できます。URL に javascript/ajax コンテンツが含まれている場合に非常に便利です。YQL はウェブサイトで javascript/ajax を実行しませんが、何かを起動するのは高速です

1 に答える 1