jsoup - Jsoup を使用して任意の Web ページからテキストを抽出する

Question

元の改行、スペースを含むWeb ページhttp://www.zomato.com/mumbai/starbucks-coffee-fortからテキストを抽出しようとしています。そのために、Jsoup - extracting textでの回答の助けを借りて、次のコードを作成しました。

Document doc = Jsoup.connect("http://www.zomato.com/mumbai/starbucks-coffee-fort").get();
Elements div = doc.select("div");
for (Element d : div) {
  for (Node nd : d.childNodes()) {
    System.out.println(nd.toString());
  }
}

しかし、期待どおりに機能していません。実際には、すべての子ノードのテキストだけでなく、テキストも出力する必要があります。また、このコードを少し一般化して、任意の Web ページからテキストを抽出できるようにしたいと考えています。助けてください。

score 0 · Accepted Answer

Jsoup は、任意の Web ページからテキストをスクレイピングするための一般化されたツールです ;)

この場合の解決策:

Document doc = Jsoup.connect("http://www.zomato.com/mumbai/starbucks-coffee-fort").get();
Elements div = doc.select("div.res-review-body > div > p");
for (Element paragraph : div) {
    System.out.println(paragraph.text());
}

結果：

Firstly I would say it was tough to even start writing a review for a brand like 'Starbucks'.
(...)

jsoup - Jsoup を使用して任意の Web ページからテキストを抽出する

1 に答える 1

Related

Reference