分析を実行するために新しいハードウェアを購入しようとしていますが、正しい決定を下しているかどうか疑問に思っています。
設定:
私たちは、DNA シーケンス データを処理するバイオインフォマティクス ラボです。私たちの分野の最大の問題は、計算ではなくデータの量です。1 回の実験ですぐに数十から数百 Gb になり、通常は異なる実験を同時に実行します。もちろん、mapreduce のアプローチは興味深いものですが ( http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.htmlも参照)、すべてのソフトウェアがそのパラダイムを使用しているわけではありません。また、一部のソフトウェアはASCIIファイルを入力/出力として使用し、他のソフトウェアはバイナリファイルで動作します。
何を購入するか: 購入する
可能性のあるマシンは、NAS ストレージ (>20Tb) にリンクされた 32 コアと 192Gb の RAM を備えたサーバーです。これは、(mapreduce 以外の) アプリケーションの多くにとって非常に興味深いセットアップのように思えますが、このような構成は、hadoop/mapreduce/hdfs を意味のある方法で実装することを妨げますか?
どうもありがとう、
ヤン。