hadoop - Mapreduce 対 Spark 対 Storm 対 Drill - 小さなファイルの場合

Question

spark がインメモリ計算を行い、MapReduce よりもはるかに高速であることは知っています。私は、言うレコード < 10000 に対してスパークがどの程度うまく機能するのだろうかと思っていました。Hadoop データプラットフォームに膨大な数のファイル (各ファイルには約 10000 レコード、たとえば 100 列ファイル) が入っており、hbase にロードする前にデータ品質チェックを実行する必要があります。

バックエンドで MapReduce を使用するハイブでデータ品質チェックを行います。ファイルごとに約8分かかり、それは私にとってはかなり悪いことです. Spark は 2 ～ 3 分のパフォーマンスを向上させますか?

ベンチマークを行う必要があることはわかっていますが、実際にスパークを使用する前に、ここで基本を理解しようとしていました。私が覚えているように、初めて RDD を作成するのはオーバーヘッドになり、着信ファイルごとに新しい RDD を作成する必要があるため、少し費用がかかります。

スパーク、ドリル、ストーム、またはMapreduce自体のどれが私にとって最良のアプローチであるか混乱していますか?

score 1 · Accepted Answer

私は、約数百万のレコードで、 Drill vs Spark vs Hiveのパフォーマンスを調べています。私の場合、DillとSparkはどちらも約5〜10倍高速です（大量のRAMを備えたクラスターでパフォーマンステストを実行していません。単一ノードでテストしただけです）計算が高速な理由-両方ともメモリ内計算を実行します.

私の場合、ドリルとスパークの性能はほぼ同等です。ですので、どちらが良いとは言えません。最後にこれを試す必要があります。

Drill でのテストにはそれほど時間はかかりません。最新のドリルをダウンロードし、mapr Hadoop クラスターにインストールし、hive-storageプラグインを追加して、クエリを実行します。

hadoop - Mapreduce 対 Spark 対 Storm 対 Drill - 小さなファイルの場合

1 に答える 1

Related

Reference