hadoop - Hive のデータ処理に予想以上の時間がかかる

Question

ハイブの ORC タイプのデータに関する問題に直面しています。誰かが同様の問題に直面した場合、いくつかの提案が必要でした。

ハイブテーブルに巨大なデータが保存されています（パーティション化およびORC化）。ORC のデータサイズは約 4 TB です。このデータを圧縮されていない通常のハイブテーブル (同じテーブル構造) にコピーしようとしています。

プロセスは永久に実行されており、追跡中に膨大な量の非 DFS ストレージを占有しています。現在、プロセスは 12 時間実行されており、130 TB の非 DFS を占有しています。これは、20 台のサーバーを持つ Hadoop クラスターとしては非常に異常です。

以下は私のパラメータです：

Hadoop running: HDP 2.4
Hive: 0.13
No. of servers: 20 (2 NN included)**

この ORCed テーブルに対する単純な結合または通常の分析操作はどうなるのだろうか。また、ORC 形式のデータは基本的な DML クエリのパフォーマンスを向上させるという理論もあります。

私が何か間違ったことをしているのか、それともこれが正常な動作なのか、誰かに教えてもらえますか? ORCされたデータで、これは私の最初の経験です。

まず最初に、ヤーンログファイルが巨大なサイズで作成されていることがわかりました。ほとんどの場合、エラーログはヘビーでのみ表示されます。

ありがとう

0 に答える 0