多数のパラメーターの組み合わせ (20 ~ 40k) を使用して、妥当なサイズのデータセット (10 ~ 20mb) をシミュレートします。各データセット x パラメーター セットがプッシュされmclapply
、結果は、list
各アイテムに出力データ (リスト アイテム 1 として) と、その結果を生成するために使用されるパラメーター (リスト アイテム 2 (リストの各要素はパラメーター) として) が含まれます。
81K のリストを実行したところ (ただし、30k のチャンクで実行する必要がありました)、結果のリストはそれぞれ約 700 mb です。それらを.rdata
ファイルとして保存しましたが、おそらく.Rda
. しかし、各ファイルが に読み込まれるのに永遠に時間がかかりますR
。特に長期保管のベストプラクティスはありますか?
理想的には、すべてを 1 つのリストに保持しますが、mclapply
ベクトルをシリアル化できないというエラーがスローされます。また、これほど大きなジョブは、クラスターで永遠にかかります (3 つの方法で分割すると、1 ジョブあたり 3 時間かかります)。しかし、複数の結果ファイルresults1a.rdata
がresults2b.rdata
あるのresults3c.rdata
も効率が悪いようです。