classification - 結果に最も影響を与える属性を決定する

Question

次のように、.csv 形式のデータセットがあります。

NRC_CLASS,L1_MARKS_FINAL,L2_MARKS_FINAL,L3_MARKS_FINAL,S1_MARKS_FINAL,S2_MARKS_FINAL,S3_MARKS_FINAL,
FAIL,7,12,12,24,4,30,
PASS,49,36,46,51,31,56,
FAIL,59,35,42,18,18,45,
PASS,61,30,51,33,30,52,
PASS,68,30,35,53,45,54,
2,82,77,75,32,36,56,
FAIL,18,35,35,32,21,35,
2,86,56,46,44,37,60,
1,94,45,62,70,50,59,

最初の列では、全体の成績について説明しています。

FAIL - Fail
PASS - Pass class
1 - First class
2 - Second class
D - Distinction

これに続いて、6 教科の各生徒の採点が行われます。

とにかく、被験者が全体的な結果に違いをもたらすパフォーマンスを見つけることができますか?

私は Weka を使用しており、J48 を使用してツリーを構築していました。

J48 分類子の概要は次のとおりです。

=== Summary ===

Correctly Classified Instances       30503               92.5371 %
Incorrectly Classified Instances      2460                7.4629 %
Kappa statistic                          0.902 
Mean absolute error                      0.0332
Root mean squared error                  0.1667
Relative absolute error                 10.8867 %
Root relative squared error             42.7055 %
Total Number of Instances            32963

また、useEqualFrequency を true に設定して、マークデータを 10 個のビンに離散化しました。J48の概要は次のとおりです。

=== Summary ===

Correctly Classified Instances       28457               86.3301 %
Incorrectly Classified Instances      4506               13.6699 %
Kappa statistic                          0.8205
Mean absolute error                      0.0742
Root mean squared error                  0.2085
Relative absolute error                 24.3328 %
Root relative squared error             53.4264 %
Total Number of Instances            32963

score 0 · Accepted Answer

まず、各 NRC_CLASS 値の値を定量化する必要がある場合があります (または、100 点満点中の実際の等級を使用することをお勧めします)。これにより、属性テストの品質が向上します。

そこから、属性選択 (Weka Explorer の [属性の選択] タブにあります) を使用して、全体的な成績に最も大きな影響を与える属性を見つけることができます。おそらく、CorrelationAttributeEval を Attribute Evaluator として、Ranker 検索方法と組み合わせると、最も重要な属性から最も重要でない属性までを特定するのに役立つ可能性があります。

お役に立てれば！

score 0 · Accepted Answer

各属性の相対的な関連性を判断したいようです。この場合、重み学習アルゴリズムを使用する必要があります。Wekaにはいくつかありますが、私はReliefを使用しました. [属性の選択] タブに移動し、[属性エバリュエーター] で [ReliefF-AttributeEval] を選択します。結果クラスの値を持つ属性を選択します。あなたのための検索方法。[開始] をクリックします。結果にはランク付けされた属性が含まれ、最高ランクの属性が最も関連性が高くなります。

classification - 結果に最も影響を与える属性を決定する

3 に答える 3

Related

Reference