1

spark がインメモリ計算を行い、MapReduce よりもはるかに高速であることは知っています。私は、言うレコード < 10000 に対してスパークがどの程度うまく機能するのだろうかと思っていました。Hadoop データ プラットフォームに膨大な数のファイル (各ファイルには約 10000 レコード、たとえば 100 列ファイル) が入っており、hbase にロードする前にデータ品質チェックを実行する必要があります。

バックエンドで MapReduce を使用するハイブでデータ品質チェックを行います。ファイルごとに約8分かかり、それは私にとってはかなり悪いことです. Spark は 2 ~ 3 分のパフォーマンスを向上させますか?

ベンチマークを行う必要があることはわかっていますが、実際にスパークを使用する前に、ここで基本を理解しようとしていました。私が覚えているように、初めて RDD を作成するのはオーバーヘッドになり、着信ファイルごとに新しい RDD を作成する必要があるため、少し費用がかかります。

スパーク、ドリル、ストーム、またはMapreduce自体のどれが私にとって最良のアプローチであるか混乱していますか?

4

1 に答える 1

1

私は、約数百万のレコードで、 Drill vs Spark vs Hiveのパフォーマンスを調べています。私の場合、DillとSparkはどちらも約5〜10倍高速です(大量のRAMを備えたクラスターでパフォーマンステストを実行していません。単一ノードでテストしただけです)計算が高速な理由-両方ともメモリ内計算を実行します.

私の場合、ドリルとスパークの性能はほぼ同等です。ですので、どちらが良いとは言えません。最後にこれを試す必要があります。

Drill でのテストにはそれほど時間はかかりません。最新のドリルをダウンロードし、mapr Hadoop クラスターにインストールし、hive-storageプラグインを追加して、クエリを実行します。

于 2015-12-24T08:34:43.287 に答える