分類には Weka のエクスプローラー機能を使用しています。
したがって、NUMERIC 値の 2 つの機能を持つ .arff ファイルがあり、クラスはバイナリ 0 または 1 ({0,1} など) です。
サンプル:
@RELATION summary
@ATTRIBUTE feature1 NUMERIC
@ATTRIBUTE feature2 NUMERIC
@ATTRIBUTE class {1,0}
@DATA
23,11,0
20,100,1
2,36,0
98,8,1
.....
この .arff ファイルをロードし、10 分割クロス検証 (テスト ファイルなし) を使用し、NaiveBayes を選択してから、データを分類すると、ラベルが正しくない 5 つ、正しくラベル付けされた 100 が得られます。ここまでは順調ですね。
ここで、.arff ファイルを大幅に変更します (フィーチャ属性に完全にランダムな値を指定します)。上記を繰り返すと、分類時にまったく同じ統計が得られます。
.arff ファイルにさらに変更を加えて、さまざまな分類アルゴリズムでこれを試しました。それでも、.arff ファイルにどのような値を指定しても、(同じアルゴリズム内で) まったく同じ統計が得られます。
ここで何か間違ったことをしていますか?