c# - HTML テキストから見出しテキストを抽出する

Question

私はそれをRichTextEditorにするためのテキストエディタをtextarea持っています。tinyMCEスタイルと書式設定なしですべての見出し (H1、H2 など) テキストを抽出したい。以下のような値
が得られるとします。txtEditor.InnerText

<p><span style="font-family: comic sans ms,sans-serif; color: #993366; font-size: large; background-color: #33cccc;">This is before heading one</span></p>
<h1><span style="font-family: comic sans ms,sans-serif; color: #993366;">Hello This is Headone</span></h1>
<p>this is before heading2</p>
<h2>This is heading2</h2>

見出しタグのテキストのみのリストを取得したいのですが? あらゆる種類の提案とガイダンスをいただければ幸いです。

score 3 · Accepted Answer

HtmlAgilityPackを使用すると、簡単です。

  var doc = new HtmlDocument();
  doc.LoadHtml(txtEditor.InnerText);
  var h1Elements = doc.DocumentNode.Descendants("h1").Select(nd => nd.InnerText);
  string h1Text = string.Join(" ", h1Elements);

score 0 · Accepted Answer

HTML のタグを読み取るための正規表現の参照
これは、探しているものに近いと思います。

String h1Regex = "<h[1-5][^>]*?>(?<TagText>.*?)</h[1-5]>";

MatchCollection mc = Regex.Matches(html, h1Regex);

c# - HTML テキストから見出しテキストを抽出する

2 に答える 2

Related

Reference