numpy.loadtxtを介してcsvファイルをnumpy配列にロードしています。私のデータには約100万のレコードと87の列があります。object.nbytesはわずか177159666バイトですが、scikit-learnを使用してディシジョンツリーをトレーニングしているときに「MemoryError」が発生するため、実際にははるかに多くの記憶が必要になります。また、データを読み取った後、私のシステムで使用可能なメモリは1.8ギガ減少しました。私は3ギガのメモリを搭載したLinuxマシンで作業しています。では、object.nbytesはnumpy配列の実際のメモリ使用量を返しますか?
train = np.loadtxt('~/Py_train.csv', delimiter=',', skiprows=1, dtype='float16')