python - Scikit Learn SVM を使用してテキスト分類用のデータを準備する

Question

Scikit Learn の SVM を適用して、収集したツイートを分類しようとしています。したがって、2 つのカテゴリがあり、A と B という名前を付けます。今のところ、すべてのツイートを 2 つのテキストファイル 'A.txt' と 'B.txt' に分類しています。ただし、Scikit Learn SVM が要求しているデータ入力の種類がわかりません。キーとしてラベル (A と B) を持つ辞書と、値として機能 (ユニグラム) とその頻度の辞書があります。申し訳ありませんが、私は機械学習が初めてで、SVM を機能させるために何をすべきかわかりません。そして、SVM がデータ入力の型として numpy.ndarray を使用していることがわかりました。自分のデータに基づいて作成する必要がありますか? それはこのようなものであるべきですか？

Labels    features    frequency
  A        'book'        54
  B       'movies'       32

どんな助けでも大歓迎です。

score 21 · Accepted Answer

テキスト特徴抽出に関するドキュメントをご覧ください。

また、テキスト分類の例もご覧ください。

ここにもチュートリアルがあります：

http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

特に、SVM モデルにあまり注目しないでください (特にsklearn.svm.SVC、カーネルモデルにとってより興味深いものではないため、テキスト分類ではありません)。単純なパーセプトロン、LogisticRegression、またはベルヌーイナイーブベイズモデルは、トレーニングがはるかに高速でありながら、うまく機能する可能性があります。

python - Scikit Learn SVM を使用してテキスト分類用のデータを準備する

1 に答える 1

Related

Reference