問題タブ [apache-spark-sql]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
446 参照

java - Java を使用して作成された 2 つの RDD での Spark SQL 結合

2 つの RDD を作成し、Java を使用して永続化しました。ジャーをスパークマスターに提出しました。ここで、spark シェルからクエリの入力を求められたときに、SQL ステートメントの結合条件を 2 つの RDD に指定しました。次に、結果セットで collect() を実行中に例外をスローします。

JOIN 条件 : TABLE_1 から a.ID を JOIN TABLE_2 b ON a.NAME = b.NAME; として選択します。

例外: resultSet.collect() の Null ポインター例外

PS: resultSet.collect(); の前に結果セットが null かどうかを確認しました。それでも状態に入り、NPE をスローします。私はspark-sql-1.1.1 jar(最新)を使用しています。

SPARK SQL の JOIN に何か問題がありますか?

0 投票する
0 に答える
50 参照

apache-spark-sql - Spark SQL: 一致する行の合計を取得する

Spark SQL を使用して、Amazon S3 に保存されている json ログの上にクエリ UI を構築しています。UI では、ほとんどのクエリが limit を使用して上位の結果を返します。通常は最初の 10 個だけです。

クエリをカウントとして再実行せずに、クエリに一致した行の総数を表示する方法はありますか?

0 投票する
1 に答える
148 参照

apache-spark-sql - Spark SQL - パフォーマンス診断

Spark SQL を使用していますが、一部のクエリが非常に遅いです。システムを最適化できるように、クエリが遅い理由について洞察を得る方法を知りたいです。

0 投票する
1 に答える
1130 参照

hbase - 大規模な Hbase テーブルを SPARK RDD にロードすると時間がかかる

大きな Hbase テーブルを SPARK RDD にロードして、エンティティで SparkSQL クエリを実行しようとしています。約 600 万行のエンティティの場合、RDD に読み込むのに約 35 秒かかります。それは期待されていますか?ロードプロセスを短縮する方法はありますか? http://hbase.apache.org/book/perf.reading.htmlからプロセスを高速化するためのヒントをいくつか得ています。速度を改善する他の方法があるかどうか疑問に思っていますか?

コード スニペットは次のとおりです。

0 投票する
1 に答える
4284 参照

sql - Spark SQL タイムアウト

Spark スタンドアロン クラスターで比較的単純な Spark SQL コマンドを実行しようとしています。

テーブルサイズは以下の通り

したがって、これから 25,000,000 行の結果が得られると予想されます。このクエリを Spark SQL で実行し、各行を処理したいと考えています。関連するスパークコードは次のとおりです

このコマンドは、テーブル スコアのサイズが 200,000 の場合は正常に実行されますが、現在は実行されません。関連するログは次のとおりです

私の最初の考えは、このタイムアウトを増やすことでしたが、ここに示すようにソースを再コンパイルしない限り、これは不可能に見えます。親ディレクトリにもいくつかの異なる結合が表示されますが、spark でこれらの他のタイプの結合を使用する方法がわかりません。

また、spark.executor.memory を 10g まで増やして、ディスクへの永続化に関する最初の警告を修正しようとしましたが、問題は解決しませんでした。

このクエリを実際に実行する方法を知っている人はいますか?

0 投票する
2 に答える
46569 参照

scala - scala を使用して Apache Spark で異なる RDD のデータセットを連結する

RDDsparkで 2 つの異なる のデータセットを連結する方法はありますか?

要件は-同じ列名を持つscalaを使用して2つの中間RDDを作成し、両方のRDDのこれらの結果を結合し、UIにアクセスするために結果をキャッシュする必要があります。ここでデータセットを結合するにはどうすればよいですか?

RDD はタイプspark.sql.SchemaRDD

0 投票する
4 に答える
77785 参照

scala - Spark SQL を使用して/使用せずに 2 つの通常の RDD を結合する

RDDs1つまたは複数の列で2つの通常を結合する必要があります。論理的には、この操作は 2 つのテーブルのデータベース結合操作と同等です。これだけで可能なのか、Spark SQLそれとも他の方法があるのか​​ 疑問に思います。

具体的な例として、r1主キーを持つ RDD を考えてみましょうITEM_ID:

r2主キーを持つRDD COMPANY_ID

参加したいr1r2.

これはどのように行うことができますか?

0 投票する
1 に答える
2745 参照

scala - Spark RDD をスキーマ RDD に変換できません

Spark プログラミング ガイドで提供されている例を実行しようとしています。 https://spark.apache.org/docs/1.1.0/sql-programming-guide.html

しかし、私はコンパイルエラーに直面しています。(私はScala初心者です)

以下は私のコードです:

No TypeTag available for Person行でコンパイルエラーに直面していますpeople.registerTempTable("people")

このエラーを解決するにはどうすればよいですか?

0 投票する
1 に答える
1066 参照

scala - RDD を標準化する

double の RDD があり、次のように「標準化」したいとします。

  1. 各列の平均と標準偏差を計算します
  2. 列ごとに、各エントリから列平均を引き、結果を列 sd で割ります

これを効率的かつ簡単に行うことはできますか (どの段階でも RDD を double 配列に変換する必要はありません)。

よろしくお願いいたします。