大きなデータセットがあります (データ全体をメモリに収めることができません)。このデータセットに GMM を当てはめたいと思います。
データのミニバッチでGMM.fit()
( ) を繰り返し使用できますか??sklearn.mixture.GMM
大きなデータセットがあります (データ全体をメモリに収めることができません)。このデータセットに GMM を当てはめたいと思います。
データのミニバッチでGMM.fit()
( ) を繰り返し使用できますか??sklearn.mixture.GMM
繰り返しフィットする理由はありません。マシンが妥当な時間内に計算できると思われる数のデータ ポイントをランダムにサンプリングします。変動がそれほど大きくない場合、ランダム サンプルは完全なデータセットとほぼ同じ分布になります。
randomly_sampled = np.random.choice(full_dataset, size=10000, replace=False)
#If data does not fit in memory you can find a way to randomly sample when you read it
GMM.fit(randomly_sampled)
そして用途は
GMM.predict(full_dataset)
# Again you can fit one by one or batch by batch if you cannot read it in memory
それらを分類する残りの部分。
オブジェクトを作成するときにinit_para
を空の文字列に設定すると、データセット全体をトレーニングできると思います。''
GMM