HTMLCleaner から取得したクリーンな HTML を見たいです。TagNode に serialize というメソッドがあるようですが、使い方がわかりません。誰かがそのサンプルコードを持っていますか?
ありがとうネイン
HTMLCleaner から取得したクリーンな HTML を見たいです。TagNode に serialize というメソッドがあるようですが、使い方がわかりません。誰かがそのサンプルコードを持っていますか?
ありがとうネイン
のサブクラスを使用しますorg.htmlcleaner.XmlSerializer
。次に例を示します。
// get the element you want to serialize
HtmlCleaner cleaner = new HtmlCleaner();
TagNode rootTagNode = cleaner.clean(url);
// set up properties for the serializer (optional, see online docs)
CleanerProperties cleanerProperties = cleaner.getProperties();
cleanerProperties.setOmitXmlDeclaration(true);
// use the getAsString method on an XmlSerializer class
XmlSerializer xmlSerializer = new PrettyXmlSerializer(cleanerProperties);
String html = xmlSerializer.getAsString(rootTagNode);
サンプルコードは次のとおりです。
HtmlCleaner htmlCleaner = new HtmlCleaner();
TagNode root = htmlCleaner.clean(url);
HtmlCleaner.getInnerHtml(root);
String html = "<" + root.getName() + ">" + htmlCleaner.getInnerHtml(root) + "</" + root.getName() + ">";