ruby - Nokogiri を使用して画像タグからテキストをスクレイピングするにはどうすればよいですか?

Question

次のようにフォーマットされた画像タグのリストからテキストを取得する必要があります。

<img src="/images/TextImage.ashx?text=Richmond" style="border-width:0px;" class="">

XPath を Nokogiri に入力すると、次のようになります。

[#<Nokogiri::XML::Element:0x80513954 name="img" attributes=[#<Nokogiri::XML::Attr:0x805138dc name="src" value="/images/TextImage.ashx?text=Richmond">, #<Nokogiri::XML::Attr:0x805138b4 name="style" value="border-width:0px;">]>]

ノコギリに「リッチモンド」を返すように伝える方法はありますか？特定の文字列の後にテキストを返すメソッドを探しています。「Richmond」だけを取得する方法がない場合、値を返すようにするにはどうすればよいですか?

score 2 · Accepted Answer

src次のようなxpath式で属性を抽出できます

src = doc.at_xpath '//img/@src'

その後、おそらく正規表現を使用して、属性から名前を抽出する必要があります。

たとえば ( srcHTML ページの属性で使用できる形式によっては、これをさらに複雑にする必要がある場合があります)。

/\?text=(.*)/ =~ src
puts $1

ruby - Nokogiri を使用して画像タグからテキストをスクレイピングするにはどうすればよいですか?

1 に答える 1

Related

Reference