java - Web ページからテキスト (記事など) を抽出する最良の方法

Question

そこで、さまざまな記事から特定の情報を収集して組み合わせることができるプログラムを作成しようとしています。私が問題を抱えているステップは、Web ページから記事を抽出することです。

Web ページからテキストを抽出するための Java ライブラリやメソッドについて何か提案をいただけないでしょうか?

http://www.diffbot.com/products/automatic/article/という製品も見つけましたが、これが正しい方法だと思いますか? もしそうなら、誰かが私に Java の実装を教えてくれませんか。

どうもありがとう

明確化 - 私は、記事である可能性のあるテキストのブロックが html dom ツリーのどこにあるかを検出するためのアルゴリズム/ライブラリ/方法をもっと探しています。Safariのリーダー機能みたいな。psこれがpythonのようなものではるかに簡単にできると思うなら、私のプログラムはJavaで実行する必要がありますが、最終的にはサーバー上で（Javaフレームワークを使用して）実行する必要がありますが、Pythonスクリプトを使用してみることができます-これは、Python が最適であるとアドバイスした場合にのみ行ってください。

score 3 · Accepted Answer

Apache Tikaを見てください。クローラーと一緒に使用することを意図しており、テキストとメタデータの両方を抽出できます。また、さまざまな出力タイプを選択できます。

score -1 · Accepted Answer

これは、取得できるすべての不正な HTML に対する答えではありませんが、ほとんどの場合、jtidyは HTML をきれいにし、さまざまな DOM ノードにアクセスするためのインターフェイスを提供し、そのノード内のテキストにアクセスします。

java - Web ページからテキスト (記事など) を抽出する最良の方法

3 に答える 3

Related

Reference