次のコードを使用して、ページからすべてのテキストをList<string>
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(content);
foreach (var script in doc.DocumentNode.Descendants("script").ToArray())
script.Remove();
foreach (var style in doc.DocumentNode.Descendants("style").ToArray())
style.Remove();
foreach (HtmlAgilityPack.HtmlNode node in doc.DocumentNode.SelectNodes("//text()"))
{
string found = WebUtility.HtmlDecode(node.InnerText.Trim());
if (found.Length > 2) // removes some unwanted strings
query[item.Key].Add(found);
}
- しかし、このコードを絞り込むためのより良い方法があるなど、一部のhtmlはまだ文字列に含まれて
</form>
いるため、各タグのテキストのみを取得し、他には何も取得しません。または、結果を解析して<*>タグを削除する必要がありますか?