3

コンテンツに基づいてテキストのカテゴリを自動的に見つけるにはどうすればよいですか?

4

5 に答える 5

2

NaturalLanguageToolkitにバンドルされているテキスト分類ライブラリを確認することをお勧めします。Pythonに慣れていなくても、APIはかなり直感的だと思います。NLTKブックには多くの良い例があり、メーリングリストの人々も非常に役に立ちます。

于 2009-07-01T12:42:19.610 に答える
2
  1. データ マイニングを読む: 実用的な機械学習ツールとテクニック- Ian H. Witten、Eibe Frank
  2. WekaまたはOrangeを使用
于 2008-12-31T18:17:23.407 に答える
1

テキストの分類を行う最も簡単な方法は、bag-of-words表現を使用することです。各ドキュメント内の単語/単語の n グラムは、特徴として使用できます。これにより、すべてのドキュメントをメートル法空間のベクトルとして表すことができます。その後、クラスタリングを適用して、内容が類似しているドキュメントをグループ化できます。たとえば、これらのベクトルで k-means クラスタリングを使用して、語彙的に類似したドキュメントをまとめてクラスタ化できます。

Python ベースのテキスト マイニング ワークベンチであるNTLKは、このようなタスクをすばやく実験するのに優れています (一般に、Python はテキストの操作に適しています)。役に立つかもしれません。

于 2014-04-26T18:52:40.550 に答える
0

これについて書かれた良い論文があります:http ://www.cs.utexas.edu/users/hyukcho/classificationAlgorithm.html

于 2008-09-15T18:38:01.917 に答える
0

テキストであれマルチメディアであれ、コンテンツを分類する最善の方法は、分類法を使用することです。よく知られている CMS のほとんどには、分類法のサポートが組み込まれています。Drupalは、さまざまな CMS の中で分類法を最もよくサポートしています。

于 2008-09-15T18:53:07.887 に答える