4000 万行 (約 8Mb) のデータ セットがありますが、各行は float 型です。sklearn カーネル密度推定を使用して、このデータ セットをガウス カーネルに適合させたいと考えています。しかし、私の PC (4GB RAM、256GB SSD) では遅すぎます。では、sklearn kde は 100 万以上のサンプルを持つデータセットを処理できますか?
1 に答える
1
はい、sci-kit は大量のデータを処理できます。しかし、お気づきのように、お使いのマシンでは十分でない可能性があります。または、ソフトウェアをより適切に使用する必要がある場合があります。sci-kit のドキュメントから、計算的にスケーリングするための戦略: より大きなデータを参照してください。
編集: Cross Validatedでの大規模なデータセットの密度推定は非常に関連性があります。
于 2014-11-10T12:02:57.157 に答える