だから私は少し画面スクレイピングを行うアプリケーションを書いています。HTML Agility Packを使用して、HTMLページ全体をHtmlDocoument
呼び出されたのインスタンスにロードしていますdoc
。今、私はこれを探して、そのドキュメントを解析したいと思います:
<table border="0" cellspacing="3">
<tr><td>First rows stuff</td></tr>
<tr>
<td>
The data I want is in here <br />
and it's seperated by these annoying <br /> 's.
No id's, classes, or even a single <p> tag. </p> Just a bunch of <br /> tags.
</td>
</tr>
</table>
したがって、2行目のデータを取得する必要があります。これどうやってするの?正規表現などを使用する必要がありますか?
更新:これが私のロード方法ですdoc
HtmlWeb hw = new HtmlWeb();
HtmlDocument doc = hw.Load(Url);