1

サイトに関するいくつかの基本的なメタデータ (リンクを共有しようとするときに Facebook が行うのと同じ量) を取得するツールを作成しています: タイトル、説明、および主要な画像。これは、 NokogiriBeautifulSoup、またはその他の多数のツールを備えた HTML ページではかなり単純です。

ただし、ajax を多用するページはどうでしょうか。一部のサイト、特にハッシュ フラグメントを使用するサイトは、Google AJAX クロール標準に対応し、 _escaped_fragment_.

クロール ファームをセットアップするためにPhantomJSまたはヘッドレス Chrome / Webkit を使用する、わずかにスケーラブルなソリューションはありますか? または、ヘッドレスで JS を実行し、結果の HTML を引き出す別の方法はありますか?

スクリーンショットをサポートするツールのボーナスポイント:D

4

0 に答える 0