0

巨大なデータセット (〜 2000 万レコードと 10 列) で python を使用して探索的データ分析に取り組んでいます。データをセグメント化し、集約し、いくつかの視覚化を作成します。そのデータセットを使用して、いくつかの決定木線形回帰モデルを作成することもできます。

データ セットが大きいため、コア データ ストレージを使用できるデータ フレームを使用する必要があります。私はPythonに比較的慣れておらず、大規模なデータセットを扱っているため、データセットでsklearnを簡単に使用できる方法を使用したいと考えています。この演習で Py-tables、Blaze、または s-Frame を使用するには、天気が混乱しています。誰かが彼らの長所と短所を理解するのを手伝ってくれたら. この種の意思決定において重要な要因は何ですか。

4

1 に答える 1