問題タブ [apache-kudu]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
339 参照

cloudera - 寄木細工ベースの impala を kudu ベースの impala に移行するための Cloudera のベスト プラクティスは何ですか

Hadoop 環境として Cloudera を使用しています。

既存の寄木細工/インパラをクドゥ/インパラに統合または移行して、既存のパイプラインのパフォーマンスを向上させる方法について、誰かがガイダンスを提供してもらえますか?

既存のパイプラインの概要は次のとおりです。

データは csv/xlsx 形式で受け取ります。

  • それらを HDFS に移動します。

  • それらを寄木細工の形式で別の場所に保存します。

  • パーティション分割された寄木細工のデータを指す場所で、impala に外部テーブルを作成します。

  • pyspark、spark scala、spark sql 内で ETL ジョブを実行します。

  • 分析結果をcsvに出力します。

既存のパイプラインは期待どおりに機能していますが、データが継続的に増加しているため、パイプラインに必要な時間/リソースも増加しています。

全体的なパフォーマンスを向上させるために、parquet ベースの impala を kudu ベースの impala に移行するベスト プラクティスは何ですか?

どうもありがとうございました。