hadoop - Hadoop、ハードウェア、バイオインフォマティクス

Question

分析を実行するために新しいハードウェアを購入しようとしていますが、正しい決定を下しているかどうか疑問に思っています。

設定:
私たちは、DNA シーケンスデータを処理するバイオインフォマティクスラボです。私たちの分野の最大の問題は、計算ではなくデータの量です。1 回の実験ですぐに数十から数百 Gb になり、通常は異なる実験を同時に実行します。もちろん、mapreduce のアプローチは興味深いものですが ( http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.htmlも参照)、すべてのソフトウェアがそのパラダイムを使用しているわけではありません。また、一部のソフトウェアはASCIIファイルを入力/出力として使用し、他のソフトウェアはバイナリファイルで動作します。

何を購入するか: 購入する
可能性のあるマシンは、NAS ストレージ (>20Tb) にリンクされた 32 コアと 192Gb の RAM を備えたサーバーです。これは、(mapreduce 以外の) アプリケーションの多くにとって非常に興味深いセットアップのように思えますが、このような構成は、hadoop/mapreduce/hdfs を意味のある方法で実装することを妨げますか?

どうもありがとう、
ヤン。

score 4 · Accepted Answer

興味深い構成があります。あなたが使用している NAS ストレージのディスク IO はどれくらいですか?

以下に基づいて決定してください。 Map Reduce パラダイムは、大量のデータを処理する問題を解決するために使用されます。基本的に、RAM はディスクストレージよりも高価です。すべてのデータを RAM に保持することはできません。ディスクストレージを使用すると、安価なコストで大量のデータを格納できます。ただし、ディスクからデータを読み取る速度はそれほど速くありません。Map Reduce はこの問題をどのように解決しますか? Map Reduce は、複数のマシンにデータを分散することでこの問題を解決します。現在、データを並列で読み取る速度は、単一のストレージディスクで実行できる速度よりも高速です。ディスク IO 速度が 100 Mbps であるとします。100 台のマシンでは、100*100 Mbps = 10Gbps でデータを読み取ることができます。

通常、プロセッサ速度はボトルネックではありません。むしろ、ディスク IO は、大量のデータを処理する際の大きなボトルネックです。

あまり効率的ではないかもしれないと感じています。

hadoop - Hadoop、ハードウェア、バイオインフォマティクス

1 に答える 1

Related

Reference