はJavaで確率シミュレーションを作成しました。これは、ディスク上のいくつかのCSVファイル(合計約100MB)からデータをロードし、結果を別の出力ファイル(多くのデータではなく、ブール値といくつかの数値)に書き込みます。パラメータファイルもあり、さまざまなパラメータについて、シミュレーション出力の分布が変化すると予想されます。正しい/最適な入力パラメーターを決定するには、複数の入力パラメーター構成にわたって複数のシミュレーションを実行し、各グループの出力の分布を確認する必要があります。各シミュレーションは、パラメーターとランダム性に応じて0.1〜10分かかります。
私はHadoopについて読んでいて、それが多くのシミュレーションの実行に役立つかどうか疑問に思っています。近い将来、約8台のネットワーク化されたデスクトップマシンにアクセスできるようになるかもしれません。私が正しく理解していれば、map関数がシミュレーションを実行して結果を吐き出す可能性があり、レデューサーがIDである可能性があります。
私が心配しているのはHDFSです。これは、小さなCSVファイルの断片ではなく、巨大なファイルを対象としているようです(64MBの最小推奨ブロックサイズを構成するのに十分な大きさではありません)。さらに、各シミュレーションには、各CSVファイルの同一のコピーのみが必要です。
Hadoopは私にとって間違ったツールですか?