1

元の改行、スペースを含むWeb ページhttp://www.zomato.com/mumbai/starbucks-coffee-fortからテキストを抽出しようとしています。そのために、Jsoup - extracting textでの回答の助けを借りて、次のコードを作成しました。

Document doc = Jsoup.connect("http://www.zomato.com/mumbai/starbucks-coffee-fort").get();
Elements div = doc.select("div");
for (Element d : div) {
  for (Node nd : d.childNodes()) {
    System.out.println(nd.toString());
  }
}

しかし、期待どおりに機能していません。実際には、すべての子ノードのテキストだけでなく、テキストも出力する必要があります。また、このコードを少し一般化して、任意の Web ページからテキストを抽出できるようにしたいと考えています。助けてください。

4

1 に答える 1

0

Jsoup は、任意の Web ページからテキストをスクレイピングするための一般化されたツールです ;)

この場合の解決策:

Document doc = Jsoup.connect("http://www.zomato.com/mumbai/starbucks-coffee-fort").get();
Elements div = doc.select("div.res-review-body > div > p");
for (Element paragraph : div) {
    System.out.println(paragraph.text());
}

結果:

Firstly I would say it was tough to even start writing a review for a brand like 'Starbucks'.
(...)
于 2013-12-21T22:25:15.757 に答える