java - jsoup を使用して URL から適切なコンテンツを抽出する

Question

を使用して CNN や NewYork times などのニュース記事のコンテンツを抽出する方法を探していますJsoup。

実際、私は次のコードを試しました：

Document document = Jsoup.connect("http://edition.cnn.com/2013/11/10/world/asia/philippines-typhoon-haiyan/index.html").get();

Element contents = document.select("#content").first();

System.out.println(contents.html()); 

System.out.println(contents.text());

私はこのエラーを受け取りました：

Exception in thread "main" java.lang.NullPointerException
at com.clearforest.Test.main(Test.java:36)

記事から適切なテキストを抽出する方法を教えてください。

score 1 · Accepted Answer

あなたcontents Elementはselect呼び出し後に null です - 指定したセレクターは、CNN からダウンロードしたドキュメントに一致を返しません -document.select("div.cnn_strycntntlft")ストーリー div コンテンツを返すようなものを試してください。

java - jsoup を使用して URL から適切なコンテンツを抽出する

1 に答える 1

Related

Reference