11

Scikit Learn の SVM を適用して、収集したツイートを分類しようとしています。したがって、2 つのカテゴリがあり、A と B という名前を付けます。今のところ、すべてのツイートを 2 つのテキスト ファイル 'A.txt' と 'B.txt' に分類しています。ただし、Scikit Learn SVM が要求しているデータ入力の種類がわかりません。キーとしてラベル (A と B) を持つ辞書と、値として機能 (ユニグラム) とその頻度の辞書があります。申し訳ありませんが、私は機械学習が初めてで、SVM を機能させるために何をすべきかわかりません。そして、SVM がデータ入力の型として numpy.ndarray を使用していることがわかりました。自分のデータに基づいて作成する必要がありますか? それはこのようなものであるべきですか?

Labels    features    frequency
  A        'book'        54
  B       'movies'       32

どんな助けでも大歓迎です。

4

1 に答える 1

21

テキスト特徴抽出に関するドキュメントをご覧ください。

また、テキスト分類の例もご覧ください。

ここにもチュートリアルがあります:

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

特に、SVM モデルにあまり注目しないでください (特にsklearn.svm.SVC、カーネル モデルにとってより興味深いものではないため、テキスト分類ではありません)。単純なパーセプトロン、LogisticRegression、またはベルヌーイ ナイーブ ベイズ モデルは、トレーニングがはるかに高速でありながら、うまく機能する可能性があります。

于 2012-12-18T22:59:58.253 に答える