問題タブ [apache-kudu]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

133 問題

0 投票する

0 に答える

339 参照

cloudera - 寄木細工ベースの impala を kudu ベースの impala に移行するための Cloudera のベストプラクティスは何ですか

Hadoop 環境として Cloudera を使用しています。

既存の寄木細工/インパラをクドゥ/インパラに統合または移行して、既存のパイプラインのパフォーマンスを向上させる方法について、誰かがガイダンスを提供してもらえますか?

既存のパイプラインの概要は次のとおりです。

データは csv/xlsx 形式で受け取ります。

それらを HDFS に移動します。
それらを寄木細工の形式で別の場所に保存します。
パーティション分割された寄木細工のデータを指す場所で、impala に外部テーブルを作成します。
pyspark、spark scala、spark sql 内で ETL ジョブを実行します。
分析結果をcsvに出力します。

既存のパイプラインは期待どおりに機能していますが、データが継続的に増加しているため、パイプラインに必要な時間/リソースも増加しています。

全体的なパフォーマンスを向上させるために、parquet ベースの impala を kudu ベースの impala に移行するベストプラクティスは何ですか?

どうもありがとうございました。

2018-12-19T15:13:02.810

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-kudu]

cloudera - 寄木細工ベースの impala を kudu ベースの impala に移行するための Cloudera のベスト プラクティスは何ですか

Reference

cloudera - 寄木細工ベースの impala を kudu ベースの impala に移行するための Cloudera のベストプラクティスは何ですか