データフレーム用の Dask パッケージのドキュメントには、次のように記載されています。
Dask データフレームは pandas データフレームのように見えますが、複数のスレッドを使用してメモリよりも大きなデータセットを操作します。
しかし、後で同じページで:
1 つの dask DataFrame は、インデックスに沿って分離された複数のインメモリ pandas DataFrame で構成されます。
Dask はディスクから異なる DataFrame パーティションを順番に読み取り、メモリに収まるように計算を実行しますか? 必要に応じて一部のパーティションをディスクにスピルしますか? 一般に、Dask はデータのメモリ <--> ディスク IO をどのように管理して、メモリよりも大きなデータ分析を可能にしますか?
10M MovieLens データセットでいくつかの基本的な計算 (平均評価など) を実行しようとしたところ、ラップトップ (8GB RAM) がスワップし始めました。