Wekaの分類子(決定木など)は「?」をどのように解釈しますか?(これはARFFファイルの欠落値を表します)学習段階ですか?Wekaはそれを事前定義された値(たとえば「0」または「false」)に置き換えるだけですか、それともトレーニングプロセスに何らかの影響を及ぼしますか?
3788 次
1 に答える
8
欠測値をそれ自体の属性値として扱うことは別として、J48分類子の場合、欠測値のある属性の分割は、観測された欠測されていない値の頻度に比例する重みで行われます。これは、WittenとFrankの教科書であるData Mining Practical Machine Learning Tools and Techniques(2005、2nd。ed。、p。63 and p。191)に文書化されており、その後、次のように報告されています。
最終的に、インスタンスのさまざまな部分がそれぞれリーフノードに到達し、これらのリーフノードでの決定は、リーフに浸透した重みを使用して再結合する必要があります。
CARTでのサロゲート分割(およびC4.5またはその後継のJ48とは対照的)など、決定木の欠落値の処理に関する詳細は、分類ツリーのwikiセクションにあります。代入の使用については、いくつかの記事で説明されています。たとえば 、ツリーで欠落データを処理する:代理分割または統計的代入。
于 2011-05-17T09:36:28.403 に答える