3

大きなデータセットがあります (データ全体をメモリに収めることができません)。このデータセットに GMM を当てはめたいと思います。

データのミニバッチでGMM.fit()( ) を繰り返し使用できますか??sklearn.mixture.GMM

4

4 に答える 4

6

繰り返しフィットする理由はありません。マシンが妥当な時間内に計算できると思われる数のデータ ポイントをランダムにサンプリングします。変動がそれほど大きくない場合、ランダム サンプルは完全なデータセットとほぼ同じ分布になります。

randomly_sampled = np.random.choice(full_dataset, size=10000, replace=False)
#If data does not fit in memory you can find a way to randomly sample when you read it

GMM.fit(randomly_sampled)

そして用途は

GMM.predict(full_dataset)
# Again you can fit one by one or batch by batch if you cannot read it in memory

それらを分類する残りの部分。

于 2015-03-17T10:08:08.273 に答える
0

オブジェクトを作成するときにinit_paraを空の文字列に設定すると、データセット全体をトレーニングできると思います。''GMM

于 2016-04-07T22:41:43.240 に答える