java - javaで「閉じられていないタグ」を使用してhtmlを解析する

Question

私の質問は非常に単純です: htmlcontent にこの img-tag のようなタグがある場合、java の html を DOM-Document に解析する方法はありますか?

<p><img src="..."></p>

これは、これらの要素の解析中に SAXException を返す Codesnippet です。

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();

InputStream is = new ByteArrayInputStream( htmlcontent.getBytes());
Document dom = db.parse(is);
is.close();

score 3 · Accepted Answer

私はそうは思いませんが、jsoupはそれを行うことができます。これは DOM API ではありませんが、非常に似ています。

score 1 · Accepted Answer

これらのいずれかが役立つ場合があります。

score 1 · Accepted Answer

DocumentBuilderは XML パーサーであるため、使用できません。

ただし、次のような HTML パーサーが必要です。

score 0 · Accepted Answer

HTML は XML ではありません。

XHTML を使用している場合を除きます。

したがって、XML パーサーが HTML を解析する必要はありません。

HtmlCleanerなどの HTML パーサーを使用します。

java - javaで「閉じられていないタグ」を使用してhtmlを解析する

4 に答える 4

Related

Reference