java - 多くのニュース記事をクロールするには何を使用すればよいですか?

Question

私は自然言語処理のプロジェクトを持っていますが、そのためには、Yahoo ニュース、Google ニュース、ブログなどのソースから多くの Web 記事をクロールする必要があります...

私は Java 開発者です (つまり、Java ツールを使用したいのです)。私は自分で各ソース Web サイトを解析し、HttpClient / XPath で記事を抽出できると思いますが、私は少し怠け者です :) ソースごとにパーサーを作成する必要がないようにする方法はありますか?

(新しい記事だけでなく、2000年から現在までの記事にも興味があります)

score 4 · Accepted Answer

NLP の最も難しい部分は、使用できるデータを取得することです。他のすべては単なる数学です。

さまざまな著作権の問題が関係しているため、各ニュースソースの Web サイト以外でニュース記事の膨大なコレクションを見つけるのは難しい場合があります。最近のニュースが必要ない場合は、Linguistic Data Consortium のEnglish Gigaword corpusを参照することをお勧めします。あなたが大学にいる場合は、データを無料で使用するための既存の関係がすでに存在している可能性があります。

Web サイトを実際にクロールして解析する必要がある場合、現時点では、適切なテキストを確実に取得するために、さまざまなニュース Web サイト用に特定のパーサーを作成する必要があることに気付くでしょう。ただし、HTML5 を使用する Web サイトが増えると、記事タグを使用して関連テキストを簡単に引き出すことができます。

実際のクロールを行うには、この前の質問が役に立つ方向性を示してくれます。

java - 多くのニュース記事をクロールするには何を使用すればよいですか?

1 に答える 1

Related

Reference