4

ほとんどすべての例は数字に基づいています。テキスト文書では、数字の代わりに単語があります。

では、これらのアルゴリズムをテキスト ドキュメントの分類に使用する方法の簡単な例を示していただけますか。

コード例は必要ありませんが、ロジックのみが必要です

擬似コードは非常に役立ちます

4

3 に答える 3

9

The common approach is to use a bag of words model (http://en.wikipedia.org/wiki/Bag_of_words_model) where the classifier would learn the presence of words in a text, it is simple but works surprisingly well.

Also, here there is a similar question: Prepare data for text classification using Scikit Learn SVM

于 2013-05-22T14:37:47.977 に答える
3

ドキュメントに表示される用語をベクトルの重みとして表します。ここで、各インデックス位置は用語の「重み」です。たとえば、ドキュメント「hello world」を想定し、位置 0 を「hello」の重要性と関連付け、位置 1 を world の重要性と関連付け、用語が出現する回数として重要性を測定すると、ドキュメントは d = (1, 1) と見なされます。

同時に、「こんにちは」だけのドキュメントは (1, 0) になります。

この表現は、最も単純なオプションである用語の頻度(@Pedromによって提案されているように)であるドキュメント内の用語の重要性に関するあらゆる尺度の基礎となる可能性があります。最も一般的でありながら単純な手法は、TF-IDFを適用することです。TF-IDFは、用語がドキュメント内でどれだけ一般的であるか、コレクション内でどれだけまれであるかを組み合わせたものです。

これが役に立てば幸いです。

于 2013-05-22T14:43:36.950 に答える