java - HTMLドキュメントを解析してDOMツリーを構築することが可能（java）

Question

開発者がAPIを介してツリーをウォークスルーできるように、HTMLドキュメントを文字列として、またはファイルから解析し、DOMツリーを構築するためにどのようなツールを使用できるか。

例えば：

DomRoot = parse("myhtml.html");

for (tags : DomRoot) {
}

注：これはXHtmlではなくHTMLドキュメントです。

score 4 · Accepted Answer

TagSoupを使用できます。これは、HTML などの不正な形式のコンテンツを一般的な Web ページから整形式の XML にクリーンアップできる SAX 準拠のパーサーです。

This is <B>bold, <I>bold italic, </b>italic, </i>normal text

gets correctly rewritten as:

This is <b>bold, <i>bold italic, </i></b><i>italic, </i>normal text.

score 2 · Accepted Answer

JTidyはあなたがやりたいことをさせてくれるはずです。

使用法はかなり簡単ですが、解析は構成可能です。例えば：

InputStream in = ...;
Tidy tidy = new Tidy();
// configure Tidy instance as required
...
...
Document doc = tidy.parseDOM(in, null);
Element root = doc.getDocumentElement();

JavaDocはここでホストされます。

score 1 · Accepted Answer

ドキュメント内のクリーニングとタグバランシングに最善を尽くすJavaライブラリであるNekoHTMLをご覧ください。これは、不正な形式のHTML（または無効なXML）ファイルを解析する簡単な方法です。

Apache2.0ライセンスの下で配布されます。

score 0 · Accepted Answer

HTMLパーサーはHTMLからXMLへの変換をサポートしているようです。次に、通常のJavaツールチェーンを使用してDOMツリーを構築できます。

score 0 · Accepted Answer

JavaからHTMLを解析するためのオープンソースツールがいくつかあります。

http://java-source.net/open-source/html-parsersを確認してください

また、この質問に対する回答を確認することもできます。Javaを使用してHTMLファイルをDOMツリーに読み取るそれはほとんど同じです...

java - HTMLドキュメントを解析してDOMツリーを構築することが可能（java）

5 に答える 5

Related

Reference