2

トレーニングデータセットと複数のテストセットがあります(クラスタリングフレームワークでインスタンスを分類しているため、テストセットのインスタンスはオンザフライで計算されます)。

インスタンス属性のスケールは異なります(最初の属性は0から1まで変化し、2番目の属性は0から100まで変化します)。

私の分類器(ロジスティック回帰とSMO)は、テスト全体が一度に設定されていないという事実にどのように対処しますか?

言い換えると、テストセットの最大値がわからない場合、さまざまなスケール属性をどのように処理しますか?

ありがとう

4

1 に答える 1

1

Weka Javadocsによると、SMO は「デフォルトですべての属性を正規化します。(出力の係数は、元のデータではなく、正規化/標準化されたデータに基づいていることに注意してください。)」つまり、トレーニング セットの場合、誤った正規化が行われます。各属性の全範囲をカバーしていません。それがどれほど悪いかは、データによって異なります。

正規化を使用する場合と使用しない場合の両方でトレーニングを試して(使用setFeatureSpaceNormalization(false)してオフにする)、何が最適かを確認することをお勧めします。

于 2011-05-02T13:15:31.350 に答える