次のように、.csv 形式のデータセットがあります。
NRC_CLASS,L1_MARKS_FINAL,L2_MARKS_FINAL,L3_MARKS_FINAL,S1_MARKS_FINAL,S2_MARKS_FINAL,S3_MARKS_FINAL,
FAIL,7,12,12,24,4,30,
PASS,49,36,46,51,31,56,
FAIL,59,35,42,18,18,45,
PASS,61,30,51,33,30,52,
PASS,68,30,35,53,45,54,
2,82,77,75,32,36,56,
FAIL,18,35,35,32,21,35,
2,86,56,46,44,37,60,
1,94,45,62,70,50,59,
最初の列では、全体の成績について説明しています。
FAIL - Fail
PASS - Pass class
1 - First class
2 - Second class
D - Distinction
これに続いて、6 教科の各生徒の採点が行われます。
とにかく、被験者が全体的な結果に違いをもたらすパフォーマンスを見つけることができますか?
私は Weka を使用しており、J48 を使用してツリーを構築していました。
J48 分類子の概要は次のとおりです。
=== Summary ===
Correctly Classified Instances 30503 92.5371 %
Incorrectly Classified Instances 2460 7.4629 %
Kappa statistic 0.902
Mean absolute error 0.0332
Root mean squared error 0.1667
Relative absolute error 10.8867 %
Root relative squared error 42.7055 %
Total Number of Instances 32963
また、useEqualFrequency を true に設定して、マーク データを 10 個のビンに離散化しました。J48の概要は次のとおりです。
=== Summary ===
Correctly Classified Instances 28457 86.3301 %
Incorrectly Classified Instances 4506 13.6699 %
Kappa statistic 0.8205
Mean absolute error 0.0742
Root mean squared error 0.2085
Relative absolute error 24.3328 %
Root relative squared error 53.4264 %
Total Number of Instances 32963