java - Java - 文字列から HTML 情報を抽出する

Question

そこにあるすべてのガイドは、テキストから HTML タグを削除してそれらの間のテキストを抽出する方法を教えてくれます。私が求めているのは、HTML タグ内にあるデータの抽出です。

例えば

文字列がある場合:

 "<FONT SIZE="5">Hello World</FONT>"

フォントサイズ情報を取得して、他の変数を更新したいと考えています。どうすればいいですか？

score 2 · Accepted Answer

この目的でjsoupを数回使用しました。寛大な HTML パーサーです。XML 解析は本質的に厳密であり、ページが XML マークアップ仕様に準拠していない場合 (ほとんどの HTML ページは準拠していません)、失敗するため、「標準」XML として解析しようとすることに注意してください。

score 1 · Accepted Answer

これは、 TagSoupなど、HTML 解析に使用可能な Java ライブラリの 1 つを使用して行います。

score 0 · Accepted Answer

jerichoHTMLのようなライブラリを使用して、HTML タグとその属性を検索したり、独自の DOM を構築したりできます。

score -1 · Accepted Answer

これを見てください: http://en.wikipedia.org/wiki/Java_API_for_XML_Processing HTML を解析すると、DOM ツリーから値を抽出できるはずです。

4 に答える 4