膨大な数の属性 (最大 12 K の特徴と 700K のレコード) を持つ非常にまばらなデータセットがあります。メモリに収まりません (属性値は二項、つまり True/False です)。
まばらなので、データセットを (ID , Feature) 形式で保持します。たとえば、次のレコードがあります:
(ID , Feature)
(110 , d_0022)
(110 , d_2393)
(110 , i_2293)
(822 , d_933 )
(822、p_2003)
....
したがって、ID : 110 のレコードには true 値 (d_0022 ; 2_2393 ; i_2293) を持つ 3 つの属性があり、残りは false です (属性はすべて、属性「機能」の個別の値です)。
この種のデータセットでデータセットをトレーニングするためのアルゴリズムを実装するソフトウェアはありますか?最初に全体のデータセットを作成しませんか?
(現在はラピッドマイナーを使用しています)