Python 2.7.10 および Anaconda 2.4.0 (64 ビット) を搭載した Jupyter ノートブック バージョン 4.0.6 で Windows 10 を実行しています。
https://jakevdp.github.io/blog/2015/08/14/out-of-core-dataframes-in-python/のブログ/チュートリアルに従っています。
from dask import dataframe as dd
columns = ["name", "amenity", "Longitude", "Latitude"]
data = dd.read_csv("POIWorld.csv", usecols=columns)
with_name = data[data.name.notnull()]
with_amenity = data[data.amenity.notnull()]
is_starbucks = with_name.name.str.contains('[Ss]tarbucks')
is_dunkin = with_name.name.str.contains('[Dd]unkin')
starbucks = with_name[is_starbucks]
dunkin = with_name[is_dunkin]
dd.compute(starbucks.name.count(), dunkin.name.count())
この最後のステートメントにより、Jupyter を実行しているコマンド プロンプト セッションで次のようにエラーが発生します。
致命的な Python エラー: GC オブジェクトは既に追跡されています
同様の質問を読むと、Python 処理メモリを扱う dask のソース コードで問題が発生する可能性があります。
このチュートリアルでヘッダーとダッシュに以前の問題があり、実行する必要がありました。
pip install git+https://github.com/blaze/dask.git --upgrade
役に立たない同様の質問: