java - Hive を使用したビッグデータのクリーンアップ

Question

Hive を使用して、所有しているデータのクエリを実行しています。問題は、このデータを消去する必要があり、大きすぎて自分のコンピューターで処理しようとしないことです (そのため、Hadoop と Hive を使用しています)。Hive でこれを行う方法はありますか? ユーザー定義関数を調べましたが、行ごとに動作するため、データを消去する最適な方法ではない可能性があると理解しています。

ありがとう

score 2 · Accepted Answer

MapReduce プログラムを使用してデータを消去する必要があります。おそらく、パフォーマンスを向上させるリデューサーでさえありません。

MapReduce プログラムは、バッファリングされたファイルリーダーのように機能し、一度に 1 行のデータを読み取ります。各行でクリーニング操作を実行し、それをクエリ用にハイブテーブルに挿入できます。

score 1 · Accepted Answer

what is your data size?
what is your cleaning operation?

Hive を使用してもクリーニング操作を実行できない場合は、mapreduce/pig のみを使用してください。

問題がハイブのパフォーマンスである場合は、最適化してみてください。

distribution cache最適化は、クリーニング操作によって異なります。使用できるmap side joinsなど...

java - Hive を使用したビッグデータのクリーンアップ

2 に答える 2

Related

Reference