HTMLをクリーンアップするための本当に簡単な方法を探しています(おそらくJavaScriptコードが埋め込まれています)。2つの 異なる HTMLTidy.NETポートを試しましたが、どちらも例外をスローしています...
申し訳ありませんが、「クリーン」とは「インデント」を意味します。HTMLはまったく不正ではありません。XHTMLに厳密です。
私はついにSGMLで動作するものを手に入れましたが、これはHTMLをインデントするためのこれまでで最もばかげたコードのチャンクです。
private static string FormatHtml(string input)
{
var sgml = new SgmlReader {DocType = "HTML", InputStream = new StringReader(input)};
using (var sw = new StringWriter())
using (var xw = new XmlTextWriter(sw) { Indentation = 2, Formatting = Formatting.Indented })
{
sgml.Read();
while (!sgml.EOF)
xw.WriteNode(sgml, true);
}
return sw.ToString();
}