1

HTML ファイルを取り込み、そこからテキストを抽出する .NET コードがあります。私はHtmlAgilityPack抽出を行うために使用しています。そこにあったほとんどのテキストを抽出したかったので、うまくいきました。要件が変更され、ドキュメントの本文からテキストのみを抽出する必要があります。ニュースの Web ページから HTML をスクレイピングしたとします。広告、関連する他の記事のタイトル、ヘッダー/フッターなどではなく、記事のテキストだけが必要です。

への呼び出しを変更して、HtmlAgilityPack本文のみを抽出することは可能ですか? または、抽出を行う別の方法はありますか?

HTML からテキストを取得する現在のコード ブロックは次のとおりです。

using HtmlAgilityPack;  

public string ConvertHtml(string html)
{
    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(html);

    StringWriter sw = new StringWriter();
    ConvertTo(doc.DocumentNode, sw);
    sw.Flush();
    return sw.ToString();
}

public void ConvertTo(HtmlNode node, TextWriter outText)
{
    string html;
    switch (node.NodeType)
    {
    case HtmlNodeType.Comment:
        // don't output comments
        break;

    case HtmlNodeType.Document:
        ConvertContentTo(node, outText);
        break;

    case HtmlNodeType.Text:
        // script and style must not be output
        string parentName = node.ParentNode.Name;
        if ((parentName == "script") || (parentName == "style"))
            break;

        // get text
        html = ((HtmlTextNode) node).Text;

        // is it in fact a special closing node output as text?
        if (HtmlNode.IsOverlappedClosingElement(html))
            break;

        // check the text is meaningful and not a bunch of whitespaces
        if (html.Trim().Length > 0)
        {
            outText.Write(HtmlEntity.DeEntitize(html));
        }
        break;

    case HtmlNodeType.Element:
        switch (node.Name)
        {
            case "p":
                // treat paragraphs as crlf
                outText.Write("\r\n");
                break;
        }

        if (node.HasChildNodes)
        {
            ConvertContentTo(node, outText);
        }
        break;
    }
}

private void ConvertContentTo(HtmlNode node, TextWriter outText)
{
    foreach (HtmlNode subnode in node.ChildNodes)
    {
        ConvertTo(subnode, outText);
    }
}

したがって、理想的にHtmlAgilityPackは、入力 HTML のどの部分が「メイン」テキスト ブロックを構成するかを判断し、それらの要素のみを入力できるようにすることです。入力 HTML の構造がどうなるかはわかりませんが、大きく変わることはわかっています (以前はもっと静的でした)。

4

0 に答える 0