元の改行、スペースを含むWeb ページhttp://www.zomato.com/mumbai/starbucks-coffee-fortからテキストを抽出しようとしています。そのために、Jsoup - extracting textでの回答の助けを借りて、次のコードを作成しました。
Document doc = Jsoup.connect("http://www.zomato.com/mumbai/starbucks-coffee-fort").get();
Elements div = doc.select("div");
for (Element d : div) {
for (Node nd : d.childNodes()) {
System.out.println(nd.toString());
}
}
しかし、期待どおりに機能していません。実際には、すべての子ノードのテキストだけでなく、テキストも出力する必要があります。また、このコードを少し一般化して、任意の Web ページからテキストを抽出できるようにしたいと考えています。助けてください。