2

jsoup を使用して、さまざまな html ページをスクレイピングしています。

public class HtmlParse {
    public static void main(String[] args) throws IOException {
     String site = args[0];
        Document doc = Jsoup.connect(site).get();
        String htm = doc.body().text();
        System.out.println(htm);
    }
}

美しく機能します。ただし、その返品に関連して多くの綿毛があるようです (つまり、ウェブサイトのリンク [a href])。jsoupでこれを省略する簡単な方法はありますか? getElementsByTagの文献を見つけましたが、使用するのに苦労しています。

前もって感謝します。

4

1 に答える 1

8

解析されたドキュメントを「きれいにする」ことができます。を参照してください。たとえば、単純なテキストのみを残すには:

Whitelist whitelist = Whitelist.simpleText();
String result = Jsoup.clean(doc.html(), whitelist);

aまたは、すべてのタグを簡単に削除できます。

doc.select("a").remove();
于 2012-04-18T14:16:26.707 に答える