algorithm - テキストコンテンツに基づいてどのように分類しますか？

Question

コンテンツに基づいてテキストのカテゴリを自動的に見つけるにはどうすればよいですか？

score 2 · Accepted Answer

NaturalLanguageToolkitにバンドルされているテキスト分類ライブラリを確認することをお勧めします。Pythonに慣れていなくても、APIはかなり直感的だと思います。NLTKブックには多くの良い例があり、メーリングリストの人々も非常に役に立ちます。

score 2 · Accepted Answer

データマイニングを読む: 実用的な機械学習ツールとテクニック- Ian H. Witten、Eibe Frank
WekaまたはOrangeを使用

score 1 · Accepted Answer

テキストの分類を行う最も簡単な方法は、bag-of-words表現を使用することです。各ドキュメント内の単語/単語の n グラムは、特徴として使用できます。これにより、すべてのドキュメントをメートル法空間のベクトルとして表すことができます。その後、クラスタリングを適用して、内容が類似しているドキュメントをグループ化できます。たとえば、これらのベクトルで k-means クラスタリングを使用して、語彙的に類似したドキュメントをまとめてクラスタ化できます。

Python ベースのテキストマイニングワークベンチであるNTLKは、このようなタスクをすばやく実験するのに優れています (一般に、Python はテキストの操作に適しています)。役に立つかもしれません。

score 0 · Accepted Answer

これについて書かれた良い論文があります：http ：//www.cs.utexas.edu/users/hyukcho/classificationAlgorithm.html

score 0 · Accepted Answer

テキストであれマルチメディアであれ、コンテンツを分類する最善の方法は、分類法を使用することです。よく知られている CMS のほとんどには、分類法のサポートが組み込まれています。Drupalは、さまざまな CMS の中で分類法を最もよくサポートしています。

algorithm - テキストコンテンツに基づいてどのように分類しますか？

5 に答える 5

Related

Reference