Weka の J48 を使用すると、属性の完全なセットで情報取得を確認できますが、これらの重要な属性を使用してモデルを構築する必要がありますか? または、属性の完全なセットを使用する必要がありますか?
質問する
61 次
1 に答える
1
データ マイニングでは、使用する機能の数、精度、およびモデルの生成にかかる時間の間に多方向のトレードオフがあります。理論的には、精度を上げるために考えられるすべての機能を含める必要があります。ただし、この方法でデータ マイニングを行うと、モデルの生成に時間がかかります。さらに、J48 のようなテキストのデシジョン ツリーを生成するモデルは、ツリーに数千のノードがある場合にはあまり役に立ちません。
最初に使用する機能の数によっては、十分な量の情報が得られない機能を削除したい場合があります。最初から機能の数が少ない場合 (例: 20 未満)、それらすべてを保持するだけでも意味があるかもしれません。
使用する機能の数を制限したい場合は、情報ゲインが最も高い機能を選択することをお勧めします。最適な機能を選択するために、主成分削減 (WEKA を使用して実行できます) などを調べることも価値があります。
于 2015-06-10T20:47:17.167 に答える