そこにあるすべてのガイドは、テキストから HTML タグを削除してそれらの間のテキストを抽出する方法を教えてくれます。私が求めているのは、HTML タグ内にあるデータの抽出です。
例えば
文字列がある場合:
"<FONT SIZE="5">Hello World</FONT>"
フォント サイズ情報を取得して、他の変数を更新したいと考えています。どうすればいいですか?
この目的でjsoupを数回使用しました。寛大な HTML パーサーです。XML 解析は本質的に厳密であり、ページが XML マークアップ仕様に準拠していない場合 (ほとんどの HTML ページは準拠していません)、失敗するため、「標準」XML として解析しようとすることに注意してください。
これは、 TagSoupなど、HTML 解析に使用可能な Java ライブラリの 1 つを使用して行います。
jerichoHTMLのようなライブラリを使用して、HTML タグとその属性を検索したり、独自の DOM を構築したりできます。
これを見てください: http://en.wikipedia.org/wiki/Java_API_for_XML_Processing HTML を解析すると、DOM ツリーから値を抽出できるはずです。