を使用して CNN や NewYork times などのニュース記事のコンテンツを抽出する方法を探していますJsoup
。
実際、私は次のコードを試しました:
Document document = Jsoup.connect("http://edition.cnn.com/2013/11/10/world/asia/philippines-typhoon-haiyan/index.html").get();
Element contents = document.select("#content").first();
System.out.println(contents.html());
System.out.println(contents.text());
私はこのエラーを受け取りました:
Exception in thread "main" java.lang.NullPointerException
at com.clearforest.Test.main(Test.java:36)
記事から適切なテキストを抽出する方法を教えてください。