不適切な形式の html ページがあるとします。
<table>
 <thead>
  <th class="what_I_need">Super sweet text<th>
 </thead>
 <tr>
  <td>
    I also need this
  </td>
  <td>
    and this (all td's in this and subsequent tr's)
  </td>
 </tr>
 <tr>
   ...all td's here too
 </tr>
 <tr>
   ...all td's here too
 </tr>
</table>
<th>BeautifulSoup では、 を取得してから を呼び出すことができましたfindNext("td")。Nokogiri にはnext_element呼び出しがありますが、必要なものが返されない可能性があります (この場合、tr要素が返されます)。
next_elementノコギリの呼び出しをフィルタリングする方法はありますか? 例えばnext_element("td")?
編集
明確にするために、私は多くのサイトを調べますが、それらのほとんどはさまざまな形で不適切に形成されています。
たとえば、次のサイトは次のようになります。
<table>
 <th class="what_I_need">Super sweet text<th>
 <tr>
  <td>
    I also need this
  </td>
  <td>
    and this (all td's in this and subsequent tr's)
  </td>
 </tr>
 <tr>
   ...all td's here too
 </tr>
 <tr>
   ...all td's here too
 </tr>
</table>
trクラスを持つアイテムの下に s がある以外の構造は想定できませんwhat_I_need