0

テキスト分類の問題に SVM を使用しようとしています。SVM light と呼ばれる SVM 実装とその派生 SVM multiclass (2 つ以上のクラスの分類問題用) を見つけました。ただし、分類子をトレーニングおよびテストするためのファイルの形式を実際に理解することはできません。特徴ベクトルを作成する必要があることを理解しています (ドキュメント内の各単語を特徴と見なすと仮定します)。次に、各ドキュメントに対して、そのクラス、含まれる特徴 (実際には特徴のインデックス) を指定する必要があります。特徴ベクトル) と特徴値を使用して、トレーニング ファイルを作成します。この「機能値」について混乱しています。それは何でしょうか?このドキュメントのその機能の数ですか? それとも別のものですか?Web サイトに含まれるトレーニング ファイルの例には、特徴値として整数が含まれていません。これは、特徴値を形成する頻度ではないことを示しています。

また、単純なドキュメントからこの列車ファイルを作成するためのツール/ソフトウェアがあるかどうかも疑問に思っていました。私は通常、Java を使用しています。したがって、これを行うJavaのパッケージでも十分です。Google で検索してみましたが、関連するものが見つかりませんでした。

また、テキスト分類に SVM を使用する他のより良い方法があるかどうかも知りたいです。

この点で何か助けていただければ幸いです。

4

1 に答える 1

2

単純なバイナリ機能 (単語が発生したかどうか) または単純なカウントを使用できます。ただし、単純なカウントをカウントの対数でスケーリングすることをお勧めします (より頻繁に使用される単語はより重要ですが、10 倍出現する単語は 1 回出現する単語よりも 10 倍重要ではありません)。

また、単語がすべてのドキュメントでどのくらいの頻度で出現するかなどを考慮して、カウントを比較検討することもできます (単語theがドキュメントで頻繁に使用される場合でも、一般的に非常に頻繁に使用されるため、ドキュメントについて多くを語っているわけではありません)。tf-idfを見てください。

SVM は正しい選択ですか? 特に初期段階では、正確なアルゴリズムよりも適切な機能を見つけることが重要だと思います。

于 2013-08-04T13:12:42.433 に答える