Weka を使用して、J48 (C4.5) 決定木をうまく構築しました。自分の機能がどれほど効果的または重要かを評価したいと思います。
明白な方法の 1 つは、すべての特徴をループして、一度に 1 つずつ削除し、毎回分類テストを再実行して、分類精度が最も低下している特徴を確認することです。ただし、これにより、機能間の相互依存関係が隠される場合があります。
ただし、C4.5 アルゴリズムの理解に基づく別のアプローチを考えています。ツリー内の各分割は、最大の情報ゲインの決定に基づいているため、ツリーのルートに近いフィーチャの分割は、ツリー内の下位にある別のフィーチャの分割よりも、そのフィーチャが多くの情報ゲインを持っていたことを意味する必要があります。したがって、ツリー内のいくつかの分割で発生する特定の機能 F について、ルートからの F の平均距離を計算できます。次に、すべてのフィーチャを平均距離でランク付けできます。平均距離が最も低いフィーチャが最も価値のあるフィーチャになります。これは正しいアプローチでしょうか?