問題タブ [apache-spark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
427 参照

sql - apache spark sqlクエリの最適化と結果値の保存?

テキスト ファイル (1,000,000 行) に大きなデータがあります。各行には 128 列があります。ここでは、各行が特徴で、各列がディメンションです。

txt ファイルを json 形式に変換し、spark を使用して json ファイルで SQL クエリを実行できるようにしました。
今、私はこの大きなデータで kd ツリーを構築しようとしています。
私の手順:
1)各列の分散を計算し、最大の分散を持つ列を選択し、それをキーの最初のノードとして、列の平均をノードの値として作成します。
2) 最初のノード値に基づいて、データを 2 つの部分に分割し、ポイントに到達するまでプロセスを繰り返します。

私のサンプルコード:

people テーブルには 128 列あります

私の質問:
1) クエリの結果値をリストに保存する方法は?
2) 列の分散を計算する方法は?
3) 同じデータに対して複数のクエリを実行します。spark にはそれを最適化する方法がありますか?
4) 出力をキーと値のペアとしてテキスト ファイルに保存する方法

助けてください

0 投票する
1 に答える
386 参照

bigdata - Spark コードでエラーが発生しました

私が書いた以下の SPARK コードを実行中にエラーが発生しました。キーに基づいてすべてのベクトルの合計を見つけようとしています。各入力行は key(integer) で始まり、次に 127 次元の単一ベクトルである 127 個の浮動小数点数、つまり各行はキーとベクトルで始まります。


ラインインの例input.txt

6.0 156.0 26.0 3.0 1.0 0.0 2.0 1.0 15.0 113.0 53.0 139.0 156.0 0.0 0.0 0.0 156.0 29.0 1.0 38.0 59.0 0.0 0.0 28.0 4.0 2.0 9.0 1.0 0.0 0.0 0.0 9.0 83.0 13.0 6.0 33.0 11.0 2.0 0.0 11.0 35.0 4.0 2.0 4.0 1.0 3.0 2.0 4.0 0.0 0.0 0.0 0.0 2.0 19.0 45.0 17.0 47.0 2.0 2.0 7.0 59.0 90.0 15.0 11.0 156.0 14.0 1.0 4.0 9.0 1.0 5.0 25.0 14.0 27.0 2.0 0.0 2.0 86.0 48.0 10.0 6.0 156.0 23.0 1.0 2.0 21.0 6.0 0.0 3.0 31.0 10.0 4.0 3.0 0.0 0.0 1.0 2.0

以下は私が得ているエラーです。このエラーは、コードの最後の行、つまりoutput.reduceByKey

エラーメッセージ - http://pastebin.com/0tqiiJQm

この問題へのアプローチ方法がよくわかりません。を使用してみましたMarshalSerializerが、同じ問題が発生しました。

- - - - - - - - - - - - - - - 答え - - - - - - - - - - -----------------

同じ質問に対してApacheユーザーリストから回答を得ました。基本的にクラスターで実行されるマッパー/リデューサーにはクラス定義がなく、別のモジュールでクラスを記述してアタッチし、SparkContext を使用して構成しながらクラスを渡す必要があります。

私を助けてくれてありがとう。

0 投票する
1 に答える
994 参照

hive - impala/hive/spark sql から「spark 登録済みテーブル」にアクセスできません

scala を使用して spark でデータソースを作成します。ケースクラスがあり、RDD を作成してテーブルとして登録しました。スパークのドキュメントに示されている例と同じです。

ただし、Hive、impala、または spark-sql でテーブルにアクセスできません。「テーブルを表示」コマンドはテーブルを表示しません。これを達成する方法についてのアイデアはありますか?

ありがとうございました!

0 投票する
3 に答える
8397 参照

java - JavaDStream を変換するJavaRDDへ

外部ソースからデータを取得する JavaDStream があります。Spark Streaming と SparkSQL を統合しようとしています。JavaDStream は JavaRDD の . また、JavaRDD がある場合にのみ applySchema() 関数を適用できます。それをJavaRDDに変換するのを手伝ってください。私はscalaに関数があることを知っています、そしてそれははるかに簡単です。しかし、Javaで私を助けてください。

0 投票する
3 に答える
44662 参照

scala - Spark SQLで変数/パラメータを動的にバインドしますか?

Apache Spark SQLで変数をバインドする方法は? 例えば: