6

私はニュース分類のプロジェクトを行っています。基本的に、システムは事前に定義されたトピック (スポーツ、政治、国際など) に基づいてニュース記事を分類します。システムを構築するには、システムをトレーニングするための無料のデータ セットが必要です。

これまでのところ、数時間のグーグル検索とここからのリンクの後、私が見つけることができた唯一の適切なデータセットはthisです。これで十分だと思いますが、もっと見つけようと思います。

必要なデータセットは次のとおりです。

  1. タイトルだけでなく、完全なニュース記事が含まれています
  2. 英語です
  3. XML や db ではなく、.txt 形式で

誰でも私を助けることができますか?

4

2 に答える 2

0

それを構築し、検索を実行するPython / Perl / PHPスクリプトを記述し、答えが見つかったら、正規表現を使用して属性を分離できます...私は最良のオプションだと思います。簡単ではありませんが、楽しいはずです。最後に、このデータセットを私たちと共有できます。

于 2011-11-20T16:01:02.240 に答える