まず、HTML の解析に Regex を使用するのは悪い習慣であることはわかっていますが、私はモバイル アプリを開発しているので、サイズとシンプルさが重要です。また、要件は非常に簡単です。
HTML タグ: <td width=100>Capture This</td>
(タグは td/span/etc にすることができます。高さ/スタイルなどのプロパティと同じです。)
「Capture This」の部分を取得するには、どの正規表現を使用すればよいですか?
Regex
特に異なるソースからのHTML を解析するための貧弱なオプションです。
代わりに、 HTML Agility Packのような専用のパーサーを使用することを提案しました。
Html Agility Pack (HAP) とは正確には何ですか?
これは、読み取り/書き込み DOM を構築し、プレーンな XPATH または XSLT をサポートするアジャイル HTML パーサーです (実際には、使用するために XPATH や XSLT を理解する必要はありません。心配はいりません...)。これは、「Web から」HTML ファイルを解析できる .NET コード ライブラリです。パーサーは、「実際の」不正な HTML に対して非常に寛容です。オブジェクト モデルは、System.Xml を提案するものと非常に似ていますが、HTML ドキュメント (またはストリーム) 用です。
ソース ダウンロードにはサンプル プロジェクトが多数含まれているので、その使用方法を確認できます。
属性を持つことができるが子ノードを持たない特定の要素を一致させたい場合は、
/<td(?:\s[^<>]+)?>([^<>]*)<\/td>/
キャプチャされたグループを取得します。