Mechanize を使用してページをロードしました。
url = 'http://www.blah.com'
agent = Mechanize.new
page = agent.get(url)
XPathセレクターを使用して要素にアクセスしようとしました:
found = page.at('/html/body/table')
nil
私の制御範囲外の HTML には、あるべきではない開始タグがあるため、返されます。
<html>
<body>
<tr>
<table>
. . .
ブラウザが実際にページをレンダリングするとき、Firefox が呼ぶ「迷子の開始タグ」は無視されます (そして、Firefox はそれを無視する xpath を私に与えます)、Nokogiri はそれ以上の余分なものを見ることができません<tr>
。
このようなぶら下がっているタグの HTML をきれいにする方法はありますか?