1

Python 2.7.10 および Anaconda 2.4.0 (64 ビット) を搭載した Jupyter ノートブック バージョン 4.0.6 で Windows 10 を実行しています。

https://jakevdp.github.io/blog/2015/08/14/out-of-core-dataframes-in-python/のブログ/チュートリアルに従っています。

from dask import dataframe as dd
columns = ["name", "amenity", "Longitude", "Latitude"]
data = dd.read_csv("POIWorld.csv", usecols=columns)
with_name = data[data.name.notnull()]
with_amenity = data[data.amenity.notnull()]
is_starbucks = with_name.name.str.contains('[Ss]tarbucks')
is_dunkin = with_name.name.str.contains('[Dd]unkin')
starbucks = with_name[is_starbucks]
dunkin = with_name[is_dunkin]
dd.compute(starbucks.name.count(), dunkin.name.count())

この最後のステートメントにより、Jupyter を実行しているコマンド プロンプト セッションで次のようにエラーが発生します。

致命的な Python エラー: GC オブジェクトは既に追跡されています

同様の質問を読むと、Python 処理メモリを扱う dask のソース コードで問題が発生する可能性があります。

このチュートリアルでヘッダーとダッシュに以前の問題があり、実行する必要がありました。

pip install git+https://github.com/blaze/dask.git --upgrade

役に立たない同様の質問:

致命的な Python エラー: GC オブジェクトは既に追跡されています

Python の致命的なエラーのデバッグ: GC オブジェクトは既に追跡されています

4

1 に答える 1

2

Pandas の一部のバージョンでは、複数のスレッドを適切に処理できません。特にpandas.read_csv. これらは Pandas の最近のバージョンで修正されているため、この問題はおそらく次のいずれかで解決できます。

conda install pandas

pip install pandas --upgrade
于 2016-06-09T14:50:48.620 に答える