0

いくつか質問があります。1
) svmlight スタイルのデータには (対象の機能:値の機能:値 ...)があります。どういう意味ですか?このデータが書き込まれたテキストファイルを作成する予定なので、これを知りたいです。featurevaluetarget

2) また、1 つのファイルに (target feature:value feature:value) の複数の行があります。各行は 1 つのドキュメントを表しますか? 50 個のドキュメントがあるとしましょう。各行は 1 つのドキュメントを表しますか?

3) データを格納したこのテキスト ファイルを作成した後、それをinsvmlight-styleに渡したいと思います。これはどのように機能しますか?Naive Bayes ClassifierMALLET

4

1 に答える 1

1

SVMLight の公式サイトによると、トレーニング セットは次の行で構成されます。

<line> .=. <target> <feature>:<value> <feature>:<value> ... <feature>:<value> # <info>

ここで、各行は次のように定義されています。

<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string> 

「分類モードでは、ターゲット値は例のクラスを示します。ターゲット値として+1はそれぞれ正の例をマークし、-1は負の例をマークします。したがって、たとえば、行

-1 1:0.43 3:0.12 9284:0.2 # abcdef

特徴番号 1 の値が 0.43、特徴番号 3 の値が 0.12、特徴番号 9284 の値が 0.2、その他すべての特徴の値が 0 である負の例を指定します。さらに、文字列 abcdef がベクトルと共に格納されます。これは、ユーザー定義のカーネルに追加情報を提供する方法として機能します。0 のクラス ラベルは、この例を変換を使用して分類する必要があることを示します。変換によって分類された例の予測は、-l オプションで指定されたファイルに書き込まれます。予測の順序は、トレーニング データと同じです。"

詳しくは公式サイトhttp://svmlight.joachims.org/をご覧ください。

于 2013-06-20T15:57:54.893 に答える