単語の使用に関する特定の統計を計算するコードを書いています。
昨年の期間(たとえば)のさまざまなトピックからの生のニュース記事のデータベースをどこで見つけることができるか誰かが知っていますか?プレーンテキスト形式またはXMLのいずれかであることが望ましい。ランダムなWebサイトからコンテンツを取得しようとするのは良い選択肢ではありません。
将来的には、おそらく自分でアーカイブできると思います。しかし、私は既存の記事の束でプロセスを開始する必要があります...もっと楽しいです。
簡単に解析できる形式で簡単に利用できるコーパスデータセットに関する他のアイデアもありがたいです。