0

これが私の正規表現です

Dim TableHeaderExpression As String = "<th[^>]*>(.*?)</th>"

これが私のHTMLです

<th class="seller-col">
 <b>Relevanz</b>
 <span class="ps-sprite ps-sprite-sortdw" title=""></span>
 </th>

この式は、thタグ内のすべてを提供するため、出力されます。

<b>Relevanz</b>
     <span class="ps-sprite ps-sprite-sortdw" title=""></span>

しかし、私はそれを出力のみにする方法

Relevanz

<th>中身を除いて中のすべてのテキストを無視することを意味します<b>

4

1 に答える 1

1

HTMLの解析に正規表現を使用する代わりに(最良のオプションではありません)、HTMLAgilityPackを使用してHTMLを解析およびクエリします。

これは、読み取り/書き込みDOMを構築し、プレーンXPATHまたはXSLTをサポートするアジャイルHTMLパーサーです(実際には、XPATHまたはXSLTを理解して使用する必要はありません。心配しないでください...)。これは、「Web外」のHTMLファイルを解析できるようにする.NETコードライブラリです。パーサーは、「現実世界」の不正な形式のHTMLに対して非常に寛容です。オブジェクトモデルは、System.Xmlを提案するものと非常に似ていますが、HTMLドキュメント(またはストリーム)用です。

于 2012-10-29T20:56:08.380 に答える