0

html私は以下のようなフォーマットのウェブページを持っています:

<form name="test">

<td> .... </td>
  .
  .
  .
<td> <A HREF="http://www.edu/st/file.html">alo</A> </td>
<td> <A HREF="http://www.dom/st/file.html">foo</A> </td>
<td> bla bla </td>

</form>

今、私は値だけを知っています、値に基づいて ..値(ここにあります)bla blaを追跡または見つけることができますか?値を使用してそれらを追跡できますが、値は常に固定されているわけではなく、いつでも何でもかまいません。3rd lastaloHREFHREF

4

2 に答える 2

1

http://nokogiri.org/を参照

HTMLコードを解析し、セレクターを介して要素を見つけるのに役立ちます

于 2013-01-22T20:15:58.237 に答える
1

HTML ドキュメントからevery を抽出<td>するのは簡単ですが、DOM をナビゲートするための確実な方法ではありません。ただし、サンプル HTML には制限があるため、解決策を次に示します。ただし、実際の状況で機能するとは思えません。

Mechanize は重い作業のために Nokogiri を内部的に使用しているため、require 'nokogiri'すでに Mechanize が必要な場合は必要ありません。

require 'nokogiri'

doc = Nokogiri::HTML::DocumentFragment.parse(<<EOT)
<td> <A HREF="http://www.edu/st/file.html">alo</A> </td>
<td> <A HREF="http://www.dom/st/file.html">foo</A> </td>
<td> bla bla </td>
EOT

doc.search('td')[-3].at('a')['href']
=> "http://www.edu/st/file.html"

Mechanize「エージェント」からノコギリ文書を取得する方法は、ユーザーの課題として残されています。

于 2013-01-22T21:26:29.453 に答える