c# - InnerTextを使用しているときにHTMLAgilityPackが単語を接続しないようにする

Question

HTMLドキュメントからテキストを取得するという簡単なタスクを実行しようとしています。そのためにHTMLdoc.DocumentNode.InnerTextを使用しています。問題は、一部のサイトでは、単語が異なるタグにある場合、単語の間にスペースを入れないことです。そのような場合、DocumentNode.InnerTextはそれらの単語を1つに接続し、役に立たなくなりました。

たとえば、私はその行を含むサイトを読み込もうとしています

<span>İstanbul</span><ul><li><a href="i1.htm">Adana</a></li>

意味のない「İstanbulAdana」を取得しています。

HTMLAgilityPackのドキュメントでもGoogleでも解決策が見つかりませんでした

私は何かが足りませんか？

ありがとう、

score 10 · Accepted Answer

それはかなり簡単なはずです。

const string html = @"<span>İstanbul</span><ul><li><a href=""i1.htm"">Adana</a></li>";
var doc = new HtmlDocument();
doc.LoadHtml(html);
string result = string.Join(" ", doc.DocumentNode.Descendants()
  .Where(n => !n.HasChildNodes && !string.IsNullOrWhiteSpace(n.InnerText))
  .Select(n => n.InnerText));
Console.WriteLine(result); // prints "İstanbul Adana"

score 0 · Accepted Answer

この例では、コードスニペットがハングします。

const string html = @"<td><font size=""2"">abc </font><font size=""2"">(</font><font size=""2"">abc</font><font size=""2"">) </font><a href=""?query=abc"">abc</a>, abc<br><font size=""2"">abc </font>abc, <a href=""?query=abc"">abc</a>, abc, <a href=""?query=abc"">abc</a><br><font size=""2"">abc </font>abc abc, abc abc<br></td>";

join-clauseがないとハングしません（ただし、スペースも正しく配置されません）。

c# - InnerTextを使用しているときにHTMLAgilityPackが単語を接続しないようにする

2 に答える 2

Related

Reference