問題タブ [apache-kudu]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cloudera - テキストファイルをApache Kuduテーブルにロードしますか?
テキストファイルを Apache Kudu テーブルにロードするにはどうすればよいですか?
ソース ファイルは最初に HDFS スペースにある必要がありますか?
他の Hadoop エコシステム プログラム (つまり、ハイブ、インパラ) と同じ hdfs スペースを共有していない場合、次のものに相当する Apache Kudu はありますか?
ファイルを読み込もうとする前に?
hive - SparkSQL で Impala テーブルを読み取る
Lead .. over .. partition や Union などの関数を持つクエリを実行しようとしました。このクエリは、impala で実行しようとするとうまく機能しますが、Hive では失敗します。
このクエリを実行する Spark ジョブを作成する必要があります。SparkSQL でも同様に失敗しています。私の推測では、Spark 1.6 が内部で HiveQL を使用して上記のタスクを実行しているためです。
SparkSQL から impala テーブルを読み取る別の方法はありますか? Hive と両方で機能する基本的なクエリは、SprkSQL で正常に機能するためです。
実行しようとしているクエリの FYR:
エラーメッセージ:
impala - Impala KUDU テーブル - 一括更新の方法
KUDU テーブルの更新を実行する必要があります。一括更新するオプションはありますか?
フローは次のとおりです。 1. 1000 行をフェッチします。 2. 行を処理し、各行の新しい値を計算します。 3. KUDU テーブルを新しい値で更新します。
行ごとに 1 つの DB クエリで行ごとに更新する - 遅い。一括更新ソリューションを探しています。「一括での挿入で説明したのと同じアプローチを使用して、一括で更新できます」というのはこれだけでした。ここhttps://www.cloudera.com/documentation/kudu/latest/topics/kudu_impala.html#update_bulkですが、これをどうやって行うのですか? 可能であれば、例が必要ですありがとう
apache-spark-sql - kudu コンテキストへの構造化ストリームのスパーク
kafka トピックを読み込んで、spark ストリーミングで kudu テーブルに書き込みたいです。
私の最初のアプローチ
今それは不平を言う
私の2番目のアプローチ
従来の KafkaUtils.createDirectStream を使用するようにコードを変更したようです
それで、どちらが正しいアプローチですか?または、最初のアプローチから実行する方法はありますか?
Spark のバージョンは 2.2.0 です。