2

単語の使用に関する特定の統計を計算するコードを書いています。

昨年の期間(たとえば)のさまざまなトピックからの生のニュース記事のデータベースをどこで見つけることができるか誰かが知っていますか?プレーンテキスト形式またはXMLのいずれかであることが望ましい。ランダムなWebサイトからコンテンツを取得しようとするのは良い選択肢ではありません。

将来的には、おそらく自分でアーカイブできると思います。しかし、私は既存の記事の束でプロセスを開始する必要があります...もっと楽しいです。

簡単に解析できる形式で簡単に利用できるコーパスデータセットに関する他のアイデアもありがたいです。

4

1 に答える 1

0

あなたはインターネットアーカイブを試すかもしれません。テキストセクションがありますが、ニュースがあるかどうかはわかりません。また、Waybackマシンを使用して、RSSフィードを使用して主要なサイトからニュース記事を取得できる場合もあります。

于 2010-03-01T21:58:58.297 に答える