spark がインメモリ計算を行い、MapReduce よりもはるかに高速であることは知っています。私は、言うレコード < 10000 に対してスパークがどの程度うまく機能するのだろうかと思っていました。Hadoop データ プラットフォームに膨大な数のファイル (各ファイルには約 10000 レコード、たとえば 100 列ファイル) が入っており、hbase にロードする前にデータ品質チェックを実行する必要があります。
バックエンドで MapReduce を使用するハイブでデータ品質チェックを行います。ファイルごとに約8分かかり、それは私にとってはかなり悪いことです. Spark は 2 ~ 3 分のパフォーマンスを向上させますか?
ベンチマークを行う必要があることはわかっていますが、実際にスパークを使用する前に、ここで基本を理解しようとしていました。私が覚えているように、初めて RDD を作成するのはオーバーヘッドになり、着信ファイルごとに新しい RDD を作成する必要があるため、少し費用がかかります。
スパーク、ドリル、ストーム、またはMapreduce自体のどれが私にとって最良のアプローチであるか混乱していますか?