1

開発者がAPIを介してツリーをウォークスルーできるように、HTMLドキュメントを文字列として、またはファイルから解析し、DOMツリーを構築するためにどのようなツールを使用できるか。

例えば:

DomRoot = parse("myhtml.html");

for (tags : DomRoot) {
}

注:これはXHtmlではなくHTMLドキュメントです。

4

5 に答える 5

4

TagSoupを使用できます。これは、HTML などの不正な形式のコンテンツを一般的な Web ページから整形式の XML にクリーンアップできる SAX 準拠のパーサーです。

This is <B>bold, <I>bold italic, </b>italic, </i>normal text

gets correctly rewritten as:

This is <b>bold, <i>bold italic, </i></b><i>italic, </i>normal text.
于 2009-09-16T14:49:38.513 に答える
2

JTidyはあなたがやりたいことをさせてくれるはずです。

使用法はかなり簡単ですが、解析は構成可能です。例えば:

InputStream in = ...;
Tidy tidy = new Tidy();
// configure Tidy instance as required
...
...
Document doc = tidy.parseDOM(in, null);
Element root = doc.getDocumentElement();

JavaDocはここでホストされます。

于 2009-09-16T14:23:05.430 に答える
1

ドキュメント内のクリーニングとタグバランシングに最善を尽くすJavaライブラリであるNekoHTMLをご覧ください。これは、不正な形式のHTML(または無効なXML)ファイルを解析する簡単な方法です。

Apache2.0ライセンスの下で配布されます。

于 2009-09-16T14:19:16.313 に答える
0

HTMLパーサーはHTMLからXMLへの変換をサポートしているようです。次に、通常のJavaツールチェーンを使用してDOMツリーを構築できます。

于 2009-09-16T14:20:45.607 に答える
0

JavaからHTMLを解析するためのオープンソースツールがいくつかあります。

http://java-source.net/open-source/html-parsersを確認してください

また、この質問に対する回答を確認することもできます 。Javaを使用してHTMLファイルをDOMツリーに読み取る それはほとんど同じです...

于 2009-09-16T14:21:24.500 に答える