0

を使用して CNN や NewYork times などのニュース記事のコンテンツを抽出する方法を探していますJsoup

実際、私は次のコードを試しました:

Document document = Jsoup.connect("http://edition.cnn.com/2013/11/10/world/asia/philippines-typhoon-haiyan/index.html").get();

Element contents = document.select("#content").first();

System.out.println(contents.html()); 

System.out.println(contents.text()); 

私はこのエラーを受け取りました:

Exception in thread "main" java.lang.NullPointerException
at com.clearforest.Test.main(Test.java:36)

記事から適切なテキストを抽出する方法を教えてください。

4

1 に答える 1

1

あなたcontents Elementselect呼び出し後に null です - 指定したセレクターは、CNN からダウンロードしたドキュメントに一致を返しません -document.select("div.cnn_strycntntlft")ストーリー div コンテンツを返すようなものを試してください。

于 2013-11-12T17:27:38.213 に答える