Scikit Learn の SVM を適用して、収集したツイートを分類しようとしています。したがって、2 つのカテゴリがあり、A と B という名前を付けます。今のところ、すべてのツイートを 2 つのテキスト ファイル 'A.txt' と 'B.txt' に分類しています。ただし、Scikit Learn SVM が要求しているデータ入力の種類がわかりません。キーとしてラベル (A と B) を持つ辞書と、値として機能 (ユニグラム) とその頻度の辞書があります。申し訳ありませんが、私は機械学習が初めてで、SVM を機能させるために何をすべきかわかりません。そして、SVM がデータ入力の型として numpy.ndarray を使用していることがわかりました。自分のデータに基づいて作成する必要がありますか? それはこのようなものであるべきですか?
Labels features frequency
A 'book' 54
B 'movies' 32
どんな助けでも大歓迎です。