html - HTMLタグ間のデータを取得するための正規表現（タグにはプロパティがあります）

Question

まず、HTML の解析に Regex を使用するのは悪い習慣であることはわかっていますが、私はモバイルアプリを開発しているので、サイズとシンプルさが重要です。また、要件は非常に簡単です。

HTML タグ: <td width=100>Capture This</td>(タグは td/span/etc にすることができます。高さ/スタイルなどのプロパティと同じです。)

「Capture This」の部分を取得するには、どの正規表現を使用すればよいですか?

score 1 · Accepted Answer

Regex特に異なるソースからのHTML を解析するための貧弱なオプションです。

代わりに、 HTML Agility Packのような専用のパーサーを使用することを提案しました。

Html Agility Pack (HAP) とは正確には何ですか?

これは、読み取り/書き込み DOM を構築し、プレーンな XPATH または XSLT をサポートするアジャイル HTML パーサーです (実際には、使用するために XPATH や XSLT を理解する必要はありません。心配はいりません...)。これは、「Web から」HTML ファイルを解析できる .NET コードライブラリです。パーサーは、「実際の」不正な HTML に対して非常に寛容です。オブジェクトモデルは、System.Xml を提案するものと非常に似ていますが、HTML ドキュメント (またはストリーム) 用です。

ソースダウンロードにはサンプルプロジェクトが多数含まれているので、その使用方法を確認できます。

score 1 · Accepted Answer

属性を持つことができるが子ノードを持たない特定の要素を一致させたい場合は、

/<td(?:\s[^<>]+)?>([^<>]*)<\/td>/

キャプチャされたグループを取得します。

html - HTMLタグ間のデータを取得するための正規表現（タグにはプロパティがあります）

2 に答える 2

Related

Reference