html - C＃でXMLノードからHTMLテーブルを抽出する

Question

XML ノード内から次の HTML があります。

<table cellpadding="5"><tr><td><strong>Date </strong></td><td><strong>Event</strong>
</td><td><strong>Pro</strong></td><td><strong>Act</strong></td><td>
<strong>Prev</strong></td></tr><tr><td>Jun 8 12:30</td><td>Announcement</td><td>0.300  
%</td><td>0.100  %</td><td>0.700  %</td></tr></table><br />

<h2>News</h2><ul><li><a href="http://www.link1.com">News Text</a> Source <br/>Fri, Jun 8 
2012, 12:34 GMT</li></ul><br /><div class="class1">
<a href="http://link2.com"><img src="http://link3.com" border="0"></img></a>

私はちょうどテーブルをつかむことができる必要があります。残念ながら、これらはすべて 1 つの XML ノード内にあるため、これ以上 doc.SelectSingleNode を使用することはできません。取得したデータをパースしていきますが、後半の要素は常に変化するので、これを静的文字列ではなく変数として XElement.Parse に渡せるようにしなければなりません。

HtmlAgilityPack を使用しています。誰かがテーブルのみを抽出する方法を知っていれば、私は完全に立ち往生しているので、正しい方向へのポイントを大いに感謝します.

score 0 · Accepted Answer

Match match = Regex.Match(descr.ToString(), @"<table\s*(.+?)\s*</table>");

私が間違っていたことをあなたに言うことを拒否します:)

html - C＃でXMLノードからHTMLテーブルを抽出する

1 に答える 1

Related

Reference