不適切な形式の html ページがあるとします。
<table>
<thead>
<th class="what_I_need">Super sweet text<th>
</thead>
<tr>
<td>
I also need this
</td>
<td>
and this (all td's in this and subsequent tr's)
</td>
</tr>
<tr>
...all td's here too
</tr>
<tr>
...all td's here too
</tr>
</table>
<th>
BeautifulSoup では、 を取得してから を呼び出すことができましたfindNext("td")
。Nokogiri にはnext_element
呼び出しがありますが、必要なものが返されない可能性があります (この場合、tr
要素が返されます)。
next_element
ノコギリの呼び出しをフィルタリングする方法はありますか? 例えばnext_element("td")
?
編集
明確にするために、私は多くのサイトを調べますが、それらのほとんどはさまざまな形で不適切に形成されています。
たとえば、次のサイトは次のようになります。
<table>
<th class="what_I_need">Super sweet text<th>
<tr>
<td>
I also need this
</td>
<td>
and this (all td's in this and subsequent tr's)
</td>
</tr>
<tr>
...all td's here too
</tr>
<tr>
...all td's here too
</tr>
</table>
tr
クラスを持つアイテムの下に s がある以外の構造は想定できませんwhat_I_need