私は自然言語処理のプロジェクトを持っていますが、そのためには、Yahoo ニュース、Google ニュース、ブログなどのソースから多くの Web 記事をクロールする必要があります...
私は Java 開発者です (つまり、Java ツールを使用したいのです)。私は自分で各ソース Web サイトを解析し、HttpClient / XPath で記事を抽出できると思いますが、私は少し怠け者です :) ソースごとにパーサーを作成する必要がないようにする方法はありますか?
(新しい記事だけでなく、2000年から現在までの記事にも興味があります)