1

Rubyで単純なWebクローラーを作成していhrefて、ページ上のすべてのコンテンツをフェッチする必要があります。一部のページは有効でない可能性があるため、これまたは他のWebページのソース解析を行うための最良の方法は何ですか。それでも、それらを解析できるようにしたいです。

妥当性にとらわれない構文解析を可能にする優れたRubyHTMLパーサーはありますか、それとも正規表現を使用して手動で行うのが最善の方法ですか?

XHTML以外のページでXPathを使用することは可能ですか?

4

2 に答える 2

4

のこぎりをご覧ください。簡単な例:

require 'open-uri'
require 'nokogiri'
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
doc.search('//*[@href]').each do |m| p m[:href] end
于 2009-11-03T00:04:52.390 に答える
1

Mechanizeを見てください。ページ内のすべてのリンクを取得するためのメソッドがあると確信しています。

于 2009-11-03T00:14:41.770 に答える