単純な関数を使用して、作業を開始する前に状態を復元しています:
import pickle, gzip
def load(filename):
"""Loads a compressed object from disk
"""
file = gzip.GzipFile(filename, 'rb')
return pickle.load(file)
records_df = load("records_all_in_one.gzp")
問題は、状態の復元がアプリケーションのボトルネックであることです。マルチプロセッシングを利用するように gzip/pickle の組み合わせを指示する簡単な方法はありますか?
もちろん、いつでもデータ構造を分割して、複数のコアの複数のファイルから読み取ることができますが、それを行うより賢い方法があるかどうかを確認したいと思います。
最後の情報 - 復元されるデータは大きな pandas DataFrame です。