できるだけ早く完了しようとしている並列処理タスクについて助けが必要です。
大きなデータフレームを小さなチャンクに分割し、各チャンクで同じスクリプトを実行するだけです。
これは恥ずかしいほどのパラレルと呼ばれていると思います。
アマゾン クラウド サービスまたは picloud を使用してこのタスクを達成するためのテンプレートを提案できる人がいれば、非常に感謝しています。
私は最初に amazon ec2 と picloud に進出しました (各データ チャンクで実行するスクリプトは python にあります) が、助けがなければどちらでも実行する方法がわからない可能性があることに気付きました。
ですから、どんな指針も大歓迎です。ec2 や picloud などを使用して並列コアや CPU をセットアップする際の主な手順、スクリプトの並列実行、スクリプト出力の保存など、基本的なヘルプ (詳しい人向け) を探しています。スクリプトは、その計算結果を csv ファイルに書き込みます。
私はubuntu 12.04を実行しています.私のpython 2.7スクリプトは非スタンドライブラリを含まず、osとcsvだけです. スクリプトは複雑ではありません。データがマシンと時間枠に対して大きすぎるだけです。