サイトに関するいくつかの基本的なメタデータ (リンクを共有しようとするときに Facebook が行うのと同じ量) を取得するツールを作成しています: タイトル、説明、および主要な画像。これは、 Nokogiri、BeautifulSoup、またはその他の多数のツールを備えた HTML ページではかなり単純です。
ただし、ajax を多用するページはどうでしょうか。一部のサイト、特にハッシュ フラグメントを使用するサイトは、Google AJAX クロール標準に対応し、 _escaped_fragment_
.
クロール ファームをセットアップするためにPhantomJSまたはヘッドレス Chrome / Webkit を使用する、わずかにスケーラブルなソリューションはありますか? または、ヘッドレスで JS を実行し、結果の HTML を引き出す別の方法はありますか?
スクリーンショットをサポートするツールのボーナスポイント:D