3

私の質問は非常に単純です: htmlcontent にこの img-tag のようなタグがある場合、java の html を DOM-Document に解析する方法はありますか?

<p><img src="..."></p>

これは、これらの要素の解析中に SAXException を返す Codesnippet です。

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();

InputStream is = new ByteArrayInputStream( htmlcontent.getBytes());
Document dom = db.parse(is);
is.close();
4

4 に答える 4

3

私はそうは思いませんが、jsoupはそれを行うことができます。これは DOM API ではありませんが、非常に似ています。

于 2012-07-12T14:47:10.603 に答える
1

これらのいずれかが役立つ場合があります。

于 2012-07-12T15:06:21.793 に答える
1

DocumentBuilderは XML パーサーであるため、使用できません。

ただし、次のような HTML パーサーが必要です。

于 2012-07-12T14:46:53.933 に答える
0

HTML は XML ではありません。

XHTML を使用している場合を除きます。

したがって、XML パーサーが HTML を解析する必要はありません。

HtmlCleanerなどの HTML パーサーを使用します。

于 2012-07-12T14:47:12.437 に答える