2

特定の Web サイトをクロールして、関連情報を掘り出す必要があります。最初にサイトを検索して対応する URL を取得する必要があるようです。これをクロールすると詳細情報が得られます。

仮定しましょう、検索URLは

example.com/city1/search.html?cat=category1&locality=location1&page=1

つまり、city2、city3 などがあります。category は、場所とページの category2、category3 などになります。

すべての都市、カテゴリ、場所、およびページを収集しましたが、結果が null でなくなるまでインクリメントできます。

すべての URL を取得したら、各 URL から詳細情報を掘り出す必要があります。特定の必要な情報が JavaScript の一部として利用できることを確認しました。

今、node.io、jsdom、phantomjs を見てきました。私もyqlを見てきました。私はこれに慣れていないので、あなたの経験から、このシナリオで理想的なものを教えてください。

例を挙げることができれば、それは素晴らしいことです。

4

1 に答える 1

0

PhantomJS は、指定した URL で javascript を実行できます。URL に javascript/ajax コンテンツが含まれている場合に非常に便利です。YQL はウェブサイトで javascript/ajax を実行しませんが、何かを起動するのは高速です

于 2013-01-25T15:36:32.450 に答える