大きなデータセット(> 30Gb)を既存のpytablesテーブルに追加しようとしています。テーブルはN列で、データセットはN-1列です。1つの列は、他のN-1列を知った後に計算されます。
numpy.fromfile()
データベースに追加する前に、データセットのチャンクをメモリに読み込むために使用しています。理想的には、データをデータベースに貼り付けてから、最後の列を計算し、を使用Table.modifyColumn()
して操作を完了します。
numpy.zeros((len(new_data), N))
テーブルに追加してからTable.modifyColumns()
、新しいデータを入力するために使用することを検討しましたが、追加する必要のあるチャンクごとに空のデータの巨大な配列を生成しないようにするための良い方法を誰かが知っていることを願っています。