<br/>
ブレークラインで分割された一連の行を抽出できるように、特定の HTML 文字列を解析しようとしています。入力 HTML は次のようになります。
<div class="PlainText">
DATE: 2013-10-28 20:00:43 -0500 <br/>
Item 1: Text1 <br/>
Item 1: Text1 <br/>
Item 1: Text1 <br/>
Item 1: Text1 <br/>
<br/> //Notice this has two break lines, i would like to stop after seeing two consecutive break lines.
</div>
この div をより大きな html ドキュメントで使用すると、HTML ChildNodes
List<HtmlNode> nodes = htmlDoc.DocumentNode
.Descendants("div")
.Where(x => x.Attributes.Contains("class") &&
x.Attributes["class"].Value.Contains("PlainText")).ToList();
ここからどこへ行けばよいか完全にはわかりません。2 つのブレークラインが表示されて停止するまで、すべてのテキストを読みたいと思います。
編集
nodes
Visual Studio ランタイム インスペクターでchildNodes を調べたところ、実際には 2 つの連続する行では<br/>
なく、1 つの改行と、#text
その innerHTMl が\n
改行文字であるタグがあることに気付きました。