jsoup を使用して、さまざまな html ページをスクレイピングしています。
public class HtmlParse {
public static void main(String[] args) throws IOException {
String site = args[0];
Document doc = Jsoup.connect(site).get();
String htm = doc.body().text();
System.out.println(htm);
}
}
美しく機能します。ただし、その返品に関連して多くの綿毛があるようです (つまり、ウェブサイトのリンク [a href])。jsoupでこれを省略する簡単な方法はありますか? getElementsByTagの文献を見つけましたが、使用するのに苦労しています。
前もって感謝します。