開発者がAPIを介してツリーをウォークスルーできるように、HTMLドキュメントを文字列として、またはファイルから解析し、DOMツリーを構築するためにどのようなツールを使用できるか。
例えば:
DomRoot = parse("myhtml.html");
for (tags : DomRoot) {
}
注:これはXHtmlではなくHTMLドキュメントです。
開発者がAPIを介してツリーをウォークスルーできるように、HTMLドキュメントを文字列として、またはファイルから解析し、DOMツリーを構築するためにどのようなツールを使用できるか。
例えば:
DomRoot = parse("myhtml.html");
for (tags : DomRoot) {
}
注:これはXHtmlではなくHTMLドキュメントです。
TagSoupを使用できます。これは、HTML などの不正な形式のコンテンツを一般的な Web ページから整形式の XML にクリーンアップできる SAX 準拠のパーサーです。
This is <B>bold, <I>bold italic, </b>italic, </i>normal text
gets correctly rewritten as:
This is <b>bold, <i>bold italic, </i></b><i>italic, </i>normal text.
ドキュメント内のクリーニングとタグバランシングに最善を尽くすJavaライブラリであるNekoHTMLをご覧ください。これは、不正な形式のHTML(または無効なXML)ファイルを解析する簡単な方法です。
Apache2.0ライセンスの下で配布されます。
HTMLパーサーはHTMLからXMLへの変換をサポートしているようです。次に、通常のJavaツールチェーンを使用してDOMツリーを構築できます。
JavaからHTMLを解析するためのオープンソースツールがいくつかあります。
http://java-source.net/open-source/html-parsersを確認してください
また、この質問に対する回答を確認することもできます 。Javaを使用してHTMLファイルをDOMツリーに読み取る それはほとんど同じです...