3

多数のパラメーターの組み合わせ (20 ~ 40k) を使用して、妥当なサイズのデータ​​セット (10 ~ 20mb) をシミュレートします。各データセット x パラメーター セットがプッシュされmclapply、結果は、list各アイテムに出力データ (リスト アイテム 1 として) と、その結果を生成するために使用されるパラメーター (リスト アイテム 2 (リストの各要素はパラメーター) として) が含まれます。

81K のリストを実行したところ (ただし、30k のチャンクで実行する必要がありました)、結果のリストはそれぞれ約 700 mb です。それらを.rdataファイルとして保存しましたが、おそらく.Rda. しかし、各ファイルが に読み込まれるのに永遠に時間がかかりますR。特に長期保管のベストプラクティスはありますか?

理想的には、すべてを 1 つのリストに保持しますが、mclapplyベクトルをシリアル化できないというエラーがスローされます。また、これほど大きなジョブは、クラスターで永遠にかかります (3 つの方法で分割すると、1 ジョブあたり 3 時間かかります)。しかし、複数の結果ファイルresults1a.rdataresults2b.rdataあるのresults3c.rdataも効率が悪いようです。

4

1 に答える 1