0

Hive を使用して、所有しているデータのクエリを実行しています。問題は、このデータを消去する必要があり、大きすぎて自分のコンピューターで処理しようとしないことです (そのため、Hadoop と Hive を使用しています)。Hive でこれを行う方法はありますか? ユーザー定義関数を調べましたが、行ごとに動作するため、データを消去する最適な方法ではない可能性があると理解しています。

ありがとう

4

2 に答える 2

2

MapReduce プログラムを使用してデータを消去する必要があります。おそらく、パフォーマンスを向上させるリデューサーでさえありません。

MapReduce プログラムは、バッファリングされたファイル リーダーのように機能し、一度に 1 行のデータを読み取ります。各行でクリーニング操作を実行し、それをクエリ用にハイブ テーブルに挿入できます。

于 2013-07-16T03:15:57.533 に答える
1
what is your data size?
what is your cleaning operation?

Hive を使用してもクリーニング操作を実行できない場合は、mapreduce/pig のみを使用してください。

問題がハイブのパフォーマンスである場合は、最適化してみてください。

distribution cache最適化は、クリーニング操作によって異なります。使用できるmap side joinsなど...

于 2013-07-16T09:20:00.760 に答える