0

センチメントを予測するために libsvm を使用しています。単語数を使用していると仮定して、入力の形式を知りたいと思いました。

     [label] [index]:[value] [index]:[value]

これは、libsvm から必要な形式です。つまり、ラベルが 2 つ (1 つは正のラベル、もう 1 つは負のラベル) で、インデックスはそのラベルの下の各単語になり、値は各単語の頻度になりますか?

これは、テスト セットで使用する単語からインデックスへのマッピングを保存する必要があるということですか?

4

2 に答える 2

2

LIBSVM は、ゼロ値を格納する必要がない、いわゆる「スパース」形式を使用します。したがって、属性
5 0 2 0を持つデータは 1:5 3:2
として表されます。したがって、インデックスゼロ以外の属性のを 指定するだけで済みます。

ラベルは最初の列に表示されます。バイナリの場合、+1 を正のサンプルに、-1 を負のサンプルに使用できます。ところで、2 つのラベルだけに制限されているわけではありません。他の番号を使用できます (例: 1,2,3,4,5,...)

于 2012-01-28T20:22:34.013 に答える
0

libsvm にあるサンプルファイルを見てください。これは heart_scale と呼ばれます。それに従ってください...それは良い例です...

于 2012-01-28T17:04:37.630 に答える