1

単語のトレーニング単語とその分類を見つける必要があります。などの簡単な分類。スポーツエンターテイメントと政治のようなもの。

単語とその分類はどこにありますか。多くの大学が Bag of words の分類を行っていることは知っています。トレーニング例のリポジトリはありますか?

4

3 に答える 3

1

トピックごとにそのような単語を見つけるために、20のニュースグループデータhttp://people.csail.mit.edu/jrennie/20Newsgroupsを使用できます。データに対してサポートベクターマシンを実行すると、クラスごとに単語の重みが表示されます。上位20語または50語を使用できます。データセットには、宗教、政治、スポーツなどの20のクラスがあります。お役に立てば幸いです。

于 2012-02-16T17:37:15.110 に答える
1

これはまさにあなたが探しているものではありませんが、http://labs.google.com/setsが興味深いかもしれません。
たくさんの単語を入力すると、関連する単語のリストが吐き出されます。これを再帰的に最初のページに戻して、さらに関連する単語を取得できます。

あるいは、大量のウィキペディアの記事をダウンロードし (各ページのカテゴリ [ http://en.wikipedia.org/wiki/Special:Categories ] を既に知っている場合)、簡単なスクリプトを作成して、その中で頻度の高い単語を選択します。あるカテゴリーの記事だが、他のカテゴリーの記事の頻度は非常に低い

于 2010-05-23T22:37:57.360 に答える
0

私はそのような単語のリストを知りませんが、ウィキペディアとウィキの分類のコピーを使用することを提案できます。ウィキペディアの XML バージョンを解析して (私はそれを実行しました)、さまざまなトピックから単語を収集できます。

于 2010-05-19T09:01:30.980 に答える