私はhtmlの文字列を持っています。すべての段落を配列リストに分割したい。ただし、分割された段落は空であってはなりません。分割された段落には通常のテキストが含まれている必要があります。html テキストのみが含まれていて、その中に : のような通常のテキストがない場合は<htmltag> </htmltag>
、破棄するか分割しないでください。
これは、html 文字列内で段落を分割する方法の例です。
System.Text.RegularExpressions.Match m = System.Text.RegularExpressions.Regex.Match(htmlString, @"<p>\s*(.+?)\s*</p>");
ArrayList groupCollection = new ArrayList();
while (m.Success)
{
groupCollection.Add(m.Value);
m = m.NextMatch();
}
ArrayList paragraphs = new ArrayList();
if (groupCollection.Count > 0)
{
foreach (object item in groupCollection)
{
paragraphs.Add(item);
}
}
上記のコードはすべての段落を分割できますが、上記のようにどの段落が空であるかを認識できません。