html - Rubyでページ上のすべてのhrefコンテンツをフェッチする最も簡単な方法は？

Question

Rubyで単純なWebクローラーを作成していhrefて、ページ上のすべてのコンテンツをフェッチする必要があります。一部のページは有効でない可能性があるため、これまたは他のWebページのソース解析を行うための最良の方法は何ですか。それでも、それらを解析できるようにしたいです。

妥当性にとらわれない構文解析を可能にする優れたRubyHTMLパーサーはありますか、それとも正規表現を使用して手動で行うのが最善の方法ですか？

XHTML以外のページでXPathを使用することは可能ですか？

score 4 · Accepted Answer

のこぎりをご覧ください。簡単な例：

require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
doc.search('//*[@href]').each do |m| p m[:href] end

score 1 · Accepted Answer

Mechanizeを見てください。ページ内のすべてのリンクを取得するためのメソッドがあると確信しています。

html - Rubyでページ上のすべてのhrefコンテンツをフェッチする最も簡単な方法は？

2 に答える 2

Related

Reference