nokogiri - この hpricot コードを nokogiri に変換するにはどうすればよいですか?

Question

 Hpricot(html).inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")

hpricot = Hpricot(html)
hpricot.search("script").remove
hpricot.search("link").remove
hpricot.search("meta").remove
hpricot.search("style").remove

http://www.savedmyday.com/2008/04/25/how-to-extract-text-from-html-using-rubyhpricot/で見つけました

score 0 · Accepted Answer

Nokogiri と Hpricot はかなり互換性があります。つまり Nokogiri(html) は Hpricot(html) に相当します。リンクされた記事が何を達成しようとしているのかよくわかりませんが、次のことを行います。

タグと単語の間の大きな空白を無視することを含む HTML 本文からテキストを抽出します。

これは、Hpricot でのより簡単なアプローチであり、hpricot.search("script").removeビットの必要性を取り除きます。つまり、最初に体を取得するだけです：

Hpricot(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")

そしてノコギリでは：

Nokogiri(html).search('body').inner_text.gsub("\r"," ").gsub("\n"," ").split(" ").join(" ")

nokogiri - この hpricot コードを nokogiri に変換するにはどうすればよいですか?

1 に答える 1

Related

Reference