1

ニュース リンクから公開時刻と記事のコンテンツを抽出する必要があります。

例: このリンクから http://techcrunch.com/2013/03/19/jawbone-android/

公開時刻と記事のコンテンツを次のように抽出する必要があります

公開時間: 昨日投稿

記事の内容: Jawbone は本日、同社の動きを追跡するリストバンドである UP のアプリが、Google Play で Android 用に無料でダウンロードできるようになったことを発表しました。129 ドルの UP は、以前は iOS としか互換性がありませんでした。リストバンドも購入できるようになりました……。

4

2 に答える 2

2

jsoupが使えると思います

http://jsoup.org/

jsoupは、実際のHTMLを操作するためのJavaライブラリです。DOM、CSS、jqueryに似た最高のメソッドを使用して、データを抽出および操作するための非常に便利なAPIを提供します。

于 2013-03-20T10:15:15.507 に答える
0

記事テキストの抽出には、BoilerPipeを使用できます

 ArticleExtractor extractor = ArticleExtractor.INSTANCE
 String articleText = extractor.getText(yourHTML);
于 2016-01-27T12:00:51.480 に答える