そこで、さまざまな記事から特定の情報を収集して組み合わせることができるプログラムを作成しようとしています。私が問題を抱えているステップは、Web ページから記事を抽出することです。
Web ページからテキストを抽出するための Java ライブラリやメソッドについて何か提案をいただけないでしょうか?
http://www.diffbot.com/products/automatic/article/という製品も見つけましたが 、これが正しい方法だと思いますか? もしそうなら、誰かが私に Java の実装を教えてくれませんか。
どうもありがとう
明確化 - 私は、記事である可能性のあるテキストのブロックが html dom ツリーのどこにあるかを検出するためのアルゴリズム/ライブラリ/方法をもっと探しています。Safariのリーダー機能みたいな。psこれがpythonのようなものではるかに簡単にできると思うなら、私のプログラムはJavaで実行する必要がありますが、最終的にはサーバー上で(Javaフレームワークを使用して)実行する必要がありますが、Pythonスクリプトを使用してみることができます-これは、Python が最適であるとアドバイスした場合にのみ行ってください。