1

LMT (ロジスティック モデル ツリー) DT (デシジョン ツリー) の WEKA 実装における個々の変数の重要性を判断しようとしています。

分類タスクにおける個々の変数の寄与を知りたいので、個々の変数の重要性を判断する必要があります。これは、私の結果をより詳細に分析するためのものです。

「属性の選択」タブと対応するアルゴリズム (主成分、情報ゲイン、ランカーなど) については既に調べました。ただし、これらのアルゴリズムは、変数のどの組み合わせまたはランクが最高の (または、最終目標である分類器に応じて、最も効果的または最速) に貢献するかに関する情報を提供します。

ただし、最も重要な変数をランク付けしたり選択したりすることには興味がありません。各変数が DT の最終的な分類スコアにどの程度 (たとえば、パーセンテージ形式で) 寄与したかを判断したいと考えています。

スコアがどのように変化するかを判断するために、各変数を 1 つずつ削除することを検討しました。しかし、最終的なスコアはいくつかの潜在的な相関関係に依存する可能性があるため、これを手動で実行できるかどうかはわかりません。そのため、すべての変数を一緒に使用してこの決定を行いたいのです (1 つの寄与がゼロであっても)。

そこで問題は、分類子で使用される各個別変数の寄与を測定する方法はあるのでしょうか (その寄与がゼロであっても)?

ご協力いただきありがとうございます。

4

1 に答える 1

1

以下は、いくつかの問い合わせと調査からの回答です。実際のところ、情報獲得は確率ではありません。この属性セレクターの結果は、フィーチャが「純粋な」分類に寄与する情報量に関する情報 (整数 (0-1)) のみを提供します。

たとえば、InfoGain 値が 1 の特徴は、その特徴で利用可能なすべての情報が分類に寄与することを意味しますが、そのキューだけを使用しても分類全体を実行できるわけではありません。

多くの場合と同様に、分類はさまざまな機能の相関関係の結果です (少なくとも私の決定木に関する経験では)。したがって、分類に到達するための各決定のパスの分析は、その相関関係を通じてキューの寄与を検出する 1 つの方法です。Information Gain アルゴリズムは、各機能または属性を個々のエンティティとして評価し、クラス メンバーシップを決定するために組み合わせる他の属性を考慮しません。

于 2013-03-07T12:17:44.290 に答える