1

膨大な数の属性 (最大 12 K の特徴と 700K のレコード) を持つ非常にまばらなデータセットがあります。メモリに収まりません (属性値は二項、つまり True/False です)。

まばらなので、データセットを (ID , Feature) 形式で保持します。たとえば、次のレコードがあります:
(ID , Feature)
(110 , d_0022)
(110 , d_2393)
(110 , i_2293)
(822 , d_933 )
(822、p_2003)
....

したがって、ID : 110 のレコードには true 値 (d_0022 ; 2_2393 ; i_2293) を持つ 3 つの属性があり、残りは false です (属性はすべて、属性「機能」の個別の値です)。

この種のデータセットでデータセットをトレーニングするためのアルゴリズムを実装するソフトウェアはありますか?最初に全体のデータセットを作成しませんか?

(現在はラピッドマイナーを使用しています)

4

1 に答える 1

1

Rのスパース行列 ( example ) またはWekaSparseIstance (またはBinarySparseInstance ) で使用できます。スパース マトリックスがまだメモリに収まらない場合は、Amazon EC2 でMahoutと小さなクラスターを使用して SVD を実行し、マトリックスの次元を縮小して、通常の処理に問題がないようにすることができます。

私は RapidMiner の経験がほとんどありませんが、疎行列の実装もあるかもしれません。

于 2013-01-10T09:11:07.657 に答える