java - javaを使用してニュース記事から公開時間と記事の内容を抽出する方法は?

Question

ニュースリンクから公開時刻と記事のコンテンツを抽出する必要があります。

例: このリンクから http://techcrunch.com/2013/03/19/jawbone-android/

公開時刻と記事のコンテンツを次のように抽出する必要があります

公開時間: 昨日投稿

記事の内容: Jawbone は本日、同社の動きを追跡するリストバンドである UP のアプリが、Google Play で Android 用に無料でダウンロードできるようになったことを発表しました。129 ドルの UP は、以前は iOS としか互換性がありませんでした。リストバンドも購入できるようになりました……。

score 2 · Accepted Answer

jsoupが使えると思います

http://jsoup.org/

jsoupは、実際のHTMLを操作するためのJavaライブラリです。DOM、CSS、jqueryに似た最高のメソッドを使用して、データを抽出および操作するための非常に便利なAPIを提供します。

score 0 · Accepted Answer

記事テキストの抽出には、BoilerPipeを使用できます

 ArticleExtractor extractor = ArticleExtractor.INSTANCE
 String articleText = extractor.getText(yourHTML);

java - javaを使用してニュース記事から公開時間と記事の内容を抽出する方法は?

2 に答える 2

Related

Reference