5 から 10 個の特徴を持つデータセットがあります。出力値はスカラー値です。(したがって、分類子ではなく、線形回帰のように見えます)。一部の機能は他の機能よりも重要であり、機能の組み合わせによっては大きな結果が得られる場合があります。
これらの要件を考えると、Weka に組み込まれているアルゴリズムはどれが適していますか?
5 から 10 個の特徴を持つデータセットがあります。出力値はスカラー値です。(したがって、分類子ではなく、線形回帰のように見えます)。一部の機能は他の機能よりも重要であり、機能の組み合わせによっては大きな結果が得られる場合があります。
これらの要件を考えると、Weka に組み込まれているアルゴリズムはどれが適していますか?
Weka Explorer の [属性の選択] タブは試しましたか? InfoGainAttributeEval と CorrelationAtrributeEval は、私が通常最初に使用する 2 つの便利な機能選択方法です。
これは、私のデータセットに対する InfoGainAttributeEval からの出力例です。最初の列には、各属性の重要度が降順でリストされています。
Ranked attributes:
0.02416 8 attr8
0.014166 16 attr16
0.012868 14 attr14
0.011905 15 attr15
0.011624 6 attr6
0.010619 1 attr1
0.010367 3 attr3
0.010171 5 attr5
0.008921 7 attr7
0.008763 11 attr11
0.006094 9 attr9
0.00603 10 attr10
0.003089 4 attr4
0.00095 12 attr12
0.000672 2 attr2
0.000127 13 attr13
Selected attributes: 8,16,14,15,6,1,3,5,7,11,9,10,4,12,2,13 : 16
興味がある場合は、以下のリンクを参照して、相関ベースの特徴選択に関する古典的な論文を参照してください: http://www.cs.waikato.ac.nz/~mhall/thesis.pdf
Weka には、Classifier
回帰を実行する " " のセットがあります (Weka 用語では数値の "クラス" を出力します)。Weka GUI では、「クラス」として数値属性を選択すると表示されます。
その中には がありweka.classifiers.functions.SimpleLinearRegression
、これはまさにそれが言うことを行います。Weka には、 などのより複雑な回帰エンジンもありMultilayerPerceptron
ます。