Hive を使用して、所有しているデータのクエリを実行しています。問題は、このデータを消去する必要があり、大きすぎて自分のコンピューターで処理しようとしないことです (そのため、Hadoop と Hive を使用しています)。Hive でこれを行う方法はありますか? ユーザー定義関数を調べましたが、行ごとに動作するため、データを消去する最適な方法ではない可能性があると理解しています。
ありがとう
Hive を使用して、所有しているデータのクエリを実行しています。問題は、このデータを消去する必要があり、大きすぎて自分のコンピューターで処理しようとしないことです (そのため、Hadoop と Hive を使用しています)。Hive でこれを行う方法はありますか? ユーザー定義関数を調べましたが、行ごとに動作するため、データを消去する最適な方法ではない可能性があると理解しています。
ありがとう
MapReduce プログラムを使用してデータを消去する必要があります。おそらく、パフォーマンスを向上させるリデューサーでさえありません。
MapReduce プログラムは、バッファリングされたファイル リーダーのように機能し、一度に 1 行のデータを読み取ります。各行でクリーニング操作を実行し、それをクエリ用にハイブ テーブルに挿入できます。
what is your data size?
what is your cleaning operation?
Hive を使用してもクリーニング操作を実行できない場合は、mapreduce/pig のみを使用してください。
問題がハイブのパフォーマンスである場合は、最適化してみてください。
distribution cache
最適化は、クリーニング操作によって異なります。使用できるmap side joins
など...