問題タブ [apache-kudu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cloudera - 寄木細工ベースの impala を kudu ベースの impala に移行するための Cloudera のベスト プラクティスは何ですか
Hadoop 環境として Cloudera を使用しています。
既存の寄木細工/インパラをクドゥ/インパラに統合または移行して、既存のパイプラインのパフォーマンスを向上させる方法について、誰かがガイダンスを提供してもらえますか?
既存のパイプラインの概要は次のとおりです。
データは csv/xlsx 形式で受け取ります。
それらを HDFS に移動します。
それらを寄木細工の形式で別の場所に保存します。
パーティション分割された寄木細工のデータを指す場所で、impala に外部テーブルを作成します。
pyspark、spark scala、spark sql 内で ETL ジョブを実行します。
分析結果をcsvに出力します。
既存のパイプラインは期待どおりに機能していますが、データが継続的に増加しているため、パイプラインに必要な時間/リソースも増加しています。
全体的なパフォーマンスを向上させるために、parquet ベースの impala を kudu ベースの impala に移行するベスト プラクティスは何ですか?
どうもありがとうございました。