Rubyで単純なWebクローラーを作成していhref
て、ページ上のすべてのコンテンツをフェッチする必要があります。一部のページは有効でない可能性があるため、これまたは他のWebページのソース解析を行うための最良の方法は何ですか。それでも、それらを解析できるようにしたいです。
妥当性にとらわれない構文解析を可能にする優れたRubyHTMLパーサーはありますか、それとも正規表現を使用して手動で行うのが最善の方法ですか?
XHTML以外のページでXPathを使用することは可能ですか?
Rubyで単純なWebクローラーを作成していhref
て、ページ上のすべてのコンテンツをフェッチする必要があります。一部のページは有効でない可能性があるため、これまたは他のWebページのソース解析を行うための最良の方法は何ですか。それでも、それらを解析できるようにしたいです。
妥当性にとらわれない構文解析を可能にする優れたRubyHTMLパーサーはありますか、それとも正規表現を使用して手動で行うのが最善の方法ですか?
XHTML以外のページでXPathを使用することは可能ですか?
のこぎりをご覧ください。簡単な例:
require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
doc.search('//*[@href]').each do |m| p m[:href] end
Mechanizeを見てください。ページ内のすべてのリンクを取得するためのメソッドがあると確信しています。