0

Hadoop 環境として Cloudera を使用しています。

既存の寄木細工/インパラをクドゥ/インパラに統合または移行して、既存のパイプラインのパフォーマンスを向上させる方法について、誰かがガイダンスを提供してもらえますか?

既存のパイプラインの概要は次のとおりです。

データは csv/xlsx 形式で受け取ります。

  • それらを HDFS に移動します。

  • それらを寄木細工の形式で別の場所に保存します。

  • パーティション分割された寄木細工のデータを指す場所で、impala に外部テーブルを作成します。

  • pyspark、spark scala、spark sql 内で ETL ジョブを実行します。

  • 分析結果をcsvに出力します。

既存のパイプラインは期待どおりに機能していますが、データが継続的に増加しているため、パイプラインに必要な時間/リソースも増加しています。

全体的なパフォーマンスを向上させるために、parquet ベースの impala を kudu ベースの impala に移行するベスト プラクティスは何ですか?

どうもありがとうございました。

4

0 に答える 0