テキスト分類の問題に SVM を使用しようとしています。SVM light と呼ばれる SVM 実装とその派生 SVM multiclass (2 つ以上のクラスの分類問題用) を見つけました。ただし、分類子をトレーニングおよびテストするためのファイルの形式を実際に理解することはできません。特徴ベクトルを作成する必要があることを理解しています (ドキュメント内の各単語を特徴と見なすと仮定します)。次に、各ドキュメントに対して、そのクラス、含まれる特徴 (実際には特徴のインデックス) を指定する必要があります。特徴ベクトル) と特徴値を使用して、トレーニング ファイルを作成します。この「機能値」について混乱しています。それは何でしょうか?このドキュメントのその機能の数ですか? それとも別のものですか?Web サイトに含まれるトレーニング ファイルの例には、特徴値として整数が含まれていません。これは、特徴値を形成する頻度ではないことを示しています。
また、単純なドキュメントからこの列車ファイルを作成するためのツール/ソフトウェアがあるかどうかも疑問に思っていました。私は通常、Java を使用しています。したがって、これを行うJavaのパッケージでも十分です。Google で検索してみましたが、関連するものが見つかりませんでした。
また、テキスト分類に SVM を使用する他のより良い方法があるかどうかも知りたいです。
この点で何か助けていただければ幸いです。