machine-learning - ディシジョンツリー - スパースデータセット

Question

膨大な数の属性 (最大 12 K の特徴と 700K のレコード) を持つ非常にまばらなデータセットがあります。メモリに収まりません (属性値は二項、つまり True/False です)。

まばらなので、データセットを (ID , Feature) 形式で保持します。たとえば、次のレコードがあります:
(ID , Feature)
(110 , d_0022)
(110 , d_2393)
(110 , i_2293)
(822 , d_933 )
(822、p_2003)
....

したがって、ID : 110 のレコードには true 値 (d_0022 ; 2_2393 ; i_2293) を持つ 3 つの属性があり、残りは false です (属性はすべて、属性「機能」の個別の値です)。

この種のデータセットでデータセットをトレーニングするためのアルゴリズムを実装するソフトウェアはありますか?最初に全体のデータセットを作成しませんか?

(現在はラピッドマイナーを使用しています)

score 1 · Accepted Answer

Rのスパース行列 ( example ) またはWekaをSparseIstance (またはBinarySparseInstance ) で使用できます。スパースマトリックスがまだメモリに収まらない場合は、Amazon EC2 でMahoutと小さなクラスターを使用して SVD を実行し、マトリックスの次元を縮小して、通常の処理に問題がないようにすることができます。

私は RapidMiner の経験がほとんどありませんが、疎行列の実装もあるかもしれません。

machine-learning - ディシジョン ツリー - スパース データセット

1 に答える 1

Related

Reference

machine-learning - ディシジョンツリー - スパースデータセット