java - javaでhtmlを解析して情報を抽出する

Question

XMLに従ってHTMLページから情報を抽出するJavaクラスがあるかどうか教えていただければ幸いです。

ありがとう

score 3 · Accepted Answer

Jsoupを使用できます。私はこれを使用しており、html を解析するのに非常に適しています。Jsoup サイトの例を次に示します。

例ウィキペディアのホームページを取得し、それを DOM に解析して、ニュースセクションの見出しを要素のリストに選択します。

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

score 1 · Accepted Answer

個人的にはコブラを使っています。

HTML を XML として扱い、DOM を作成できます。これにより、xPath などのツールを使用できます。

例については、 Java HTML Parserをご覧ください。

3 に答える 3