Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
と を使用しようとしていPyTablesますNumPy。
PyTables
NumPy
後者が処理できるデータ量を教えてください。
現在、1 億 4000 万行のデータを処理していますが、処理できるかどうかを知りたいですNumPy。せめて2列1億4000万行は扱えるといいですね。現在、8 GB の RAM を搭載した 64 ビット バージョンの Windows を使用しています。
この量のデータを処理できない場合NumPy、統計と機械学習アルゴリズムの実装の代替手段は何ですか?
140Mは2**31よりはるかに小さいので、十分なメモリがあれば、これは32ビットのPython/Numpyにも収まるはずです。これを簡単に試すことができます
>>> import numpy as np >>> X = np.empty((140e6, 2))
標準でのメモリ使用量はdtype=np.float64、8バイト×140M×2=2GBのオーダーです。使用するdtype=np.float32場合は、係数2を節約できます。
dtype=np.float64
dtype=np.float32