XMLに従ってHTMLページから情報を抽出するJavaクラスがあるかどうか教えていただければ幸いです。
ありがとう
Jsoupを使用できます。私はこれを使用しており、html を解析するのに非常に適しています。Jsoup サイトの例を次に示します。
例 ウィキペディアのホームページを取得し、それを DOM に解析して、ニュース セクションの見出しを要素のリストに選択します。
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
個人的にはコブラを使っています。
HTML を XML として扱い、DOM を作成できます。これにより、xPath などのツールを使用できます。
例については、 Java HTML Parserをご覧ください。