4

分類には Weka のエクスプローラー機能を使用しています。

したがって、NUMERIC 値の 2 つの機能を持つ .arff ファイルがあり、クラスはバイナリ 0 または 1 ({0,1} など) です。

サンプル:

@RELATION summary
@ATTRIBUTE feature1 NUMERIC
@ATTRIBUTE feature2 NUMERIC
@ATTRIBUTE class {1,0}

@DATA
23,11,0
20,100,1
2,36,0
98,8,1
.....

この .arff ファイルをロードし、10 分割クロス検証 (テスト ファイルなし) を使用し、NaiveBayes を選択してから、データを分類すると、ラベルが正しくない 5 つ、正しくラベル付けされた 100 が得られます。ここまでは順調ですね。

ここで、.arff ファイルを大幅に変更します (フィーチャ属性に完全にランダムな値を指定します)。上記を繰り返すと、分類時にまったく同じ統計が得られます。

.arff ファイルにさらに変更を加えて、さまざまな分類アルゴリズムでこれを試しました。それでも、.arff ファイルにどのような値を指定しても、(同じアルゴリズム内で) まったく同じ統計が得られます。

ここで何か間違ったことをしていますか?

4

3 に答える 3

4

これ以上の情報がないとわかりにくいですが、2つの提案があります。

  1. 2つのクラスの相対的な比率はどれくらいですか?5から100ですか?多くのアルゴリズムは、非常に偏ったクラスラベル分布ではうまく機能しません。

  2. ちょっとしたことですが、クラスラベルを数字から文字列に変更してみてください(例:「class1」や「class2」)。Wekaはこれらを「名目上の」属性と呼んでいるため、数字の使用は許可されていない可能性があります。

于 2009-11-27T11:29:21.233 に答える
0

また、相互検証は UI では非常に恐ろしいものであることに注意してください。とにかく (他のデータを折りたたむ前に) 元のツリーしか表示されないからです。最終的なツリーを生成するには、プログラム API が必要です。分割トレーニング/テスト データ セットを使用することをお勧めします。

于 2010-02-11T06:44:17.040 に答える
-1

変えようとしたか

@ATTRIBUTE class {1,0} 

@ATTRIBUTE class {yes,no} 
于 2010-03-23T12:06:35.533 に答える