ruby - テーブルセル内の最後の単語を取得する

Question

RubyとNokogiriでテーブルからデータをスクレイピングしたい。

要素はたくさんありますが、<td>要素の後のテキストである国だけが必要です<br>。問題は、<td>要素が異なることです。時には国だけではありません。

例えば：

<td><a href="#">Title1</a><br>USA</td>
<td><a href="#">Title2</a><br>Michael Powell<br>UK</td>
<td><a href="#">Title3</a><br>Leopold Lindtberg<br>Ralph Meeker<br>Switzerland</td>

</td>国は常に最後の要素であるため、終了タグの前の要素に対処したいと思います。

どうやってやるの？

score 2 · Accepted Answer

私はこれを使用します：

require 'awesome_print'
require 'nokogiri'

html = '
<td><a href="#">Title1</a><br>USA</td>
<td><a href="#">Title2</a><br>Michael Powell<br>UK</td>
<td><a href="#">Title3</a><br>Leopold Lindtberg<br>Ralph Meeker<br>Switzerland</td>
'

doc = Nokogiri::HTML(html)
ap doc.search('td').map{ |td| td.search('text()').last.text }

[
    [0] "USA",
    [1] "UK",
    [2] "Switzerland"
]

問題は、解析される HTML に<td>タグの行がないことです。そのため、解析したいものを見つける必要があります。代わりに、それらはタグ間に散在し、場合によっては<tr>異なる<table>タグに散在します。あなたの HTML サンプルはドキュメントの真の構造を示していないため、これ以上お手伝いすることはできません。

score 0 · Accepted Answer

さまざまなソリューションがたくさんあります。標準ライブラリのみを使用する別の解決策は、不要なものを部分的に除外することです。

node_string = <<-STRING
  <td><a href="#">Title1</a><br>USA</td>
  <td><a href="#">Title2</a><br>Michael Powell<br>UK</td>
  <td><a href="#">Title3</a><br>Leopold Lindtberg<br>Ralph Meeker<br>Switzerland</td>
STRING
node_string.split("<td>").collect do |str| 
  last_str = str.split("<br>").last
  last_str.gsub(/[\n,\<\/td\>]/,'') unless last_str.nil?
end.compact

ruby - テーブル セル内の最後の単語を取得する

2 に答える 2

Related

Reference

ruby - テーブルセル内の最後の単語を取得する