Hadoop 環境として Cloudera を使用しています。
既存の寄木細工/インパラをクドゥ/インパラに統合または移行して、既存のパイプラインのパフォーマンスを向上させる方法について、誰かがガイダンスを提供してもらえますか?
既存のパイプラインの概要は次のとおりです。
データは csv/xlsx 形式で受け取ります。
それらを HDFS に移動します。
それらを寄木細工の形式で別の場所に保存します。
パーティション分割された寄木細工のデータを指す場所で、impala に外部テーブルを作成します。
pyspark、spark scala、spark sql 内で ETL ジョブを実行します。
分析結果をcsvに出力します。
既存のパイプラインは期待どおりに機能していますが、データが継続的に増加しているため、パイプラインに必要な時間/リソースも増加しています。
全体的なパフォーマンスを向上させるために、parquet ベースの impala を kudu ベースの impala に移行するベスト プラクティスは何ですか?
どうもありがとうございました。