2

私はこのHTMLコードを持っています:

<img src="../../../media/test.jpg" alt="test" />

しかし、これだけが欲しい:

"../../../media/test.jpg"

Rubyでこれを取得するにはどうすればよいですか?

4

2 に答える 2

8

使用するNokogiri

require 'nokogiri'

doc = Nokogiri::XML::DocumentFragment.parse <<-end
<img src="../../../media/test.jpg" alt="test" />
end
node = doc.at_css('img')
# => #(Element:0x49a28e8 {
#      name = "img",
#      attributes = [
#        #(Attr:0x49a2da2 { name = "src", value = "../../../media/test.jpg" }),
#        #(Attr:0x49a2e24 { name = "alt", value = "test" })]
#      })
node.attributes 
# => {"src"=>
#      #(Attr:0x50324ba { name = "src", value = "../../../media/test.jpg" }),
#     "alt"=>#(Attr:0x50324b0 { name = "alt", value = "test" })}
node.keys
# => ["src", "alt"]
node.values
# => ["../../../media/test.jpg", "test"]
node['src']
# => "../../../media/test.jpg"
node['alt']
# => "test"

属性を削除するalt場合は、以下を実行できます。

node.delete('alt')
node
# => #(Element:0x49a28e8 {
#      name = "img",
#      attributes = [
#        #(Attr:0x49a2da2 { name = "src", value = "../../../media/test.jpg" })]
#      })
node.values
# => ["../../../media/test.jpg"]
于 2013-07-19T20:18:12.607 に答える
3

のこぎりの逸品です。

http://nokogiri.org/

   require 'nokogiri'
   require 'open-uri'

   doc = Nokogiri::HTML(open("http://google.com"))
   images_you_want = doc.css("div#lga img").map{|links| links['src']}

   >images_you_want
   =>["/intl/en_ALL/images/srpr/logo1w.png"]
于 2013-07-19T20:18:41.677 に答える