6

データフレーム用の Dask パッケージのドキュメントには、次のように記載されています。

Dask データフレームは pandas データフレームのように見えますが、複数のスレッドを使用してメモリよりも大きなデータセットを操作します。

しかし、後で同じページで:

1 つの dask DataFrame は、インデックスに沿って分離された複数のインメモリ pandas DataFrame で構成されます。

Dask はディスクから異なる DataFrame パーティションを順番に読み取り、メモリに収まるように計算を実行しますか? 必要に応じて一部のパーティションをディスクにスピルしますか? 一般に、Dask はデータのメモリ <--> ディスク IO をどのように管理して、メモリよりも大きなデータ分析を可能にしますか?

10M MovieLens データセットでいくつかの基本的な計算 (平均評価など) を実行しようとしたところ、ラップトップ (8GB RAM) がスワップし始めました。

4

2 に答える 2

7

Dask.dataframe はデータを遅延ロードし、データセットを介して 1 回の線形スキャンで計算全体を実行しようとします。驚くべきことに、これは通常実行可能です。

ディスクにインテリジェントにダンプすることも、特にシャッフルが必要な場合に管理できるオプションですが、一般的にこれを回避する方法があります。

于 2016-03-28T19:39:37.813 に答える