問題タブ [pyspark-sql]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

2409 問題

0 投票する

1 に答える

1499 参照

python - 複数値列で JSON データをフィルタリングする方法

Spark SQL の助けを借りて、特定のグループカテゴリに属するすべてのビジネスアイテムを除外しようとしています。

データは JSON ファイルからロードされます。

ファイルのスキーマは次のとおりです。

レストランビジネスに関連するすべてのビジネスを抽出しようとしています。

しかし、予想される列のタイプは文字列である必要があることを理解しているため、機能しませんが、私の場合、これは配列です。それについて私に例外を教えてくれます：

私が欲しいものを手に入れるための他の方法を提案してもらえますか？

2015-09-07T17:57:47.347

0 投票する

2 に答える

83100 参照

python - PySpark: フィルター関数を使用した後に列の平均を取る

次のコードを使用して、給与がしきい値を超えている人の平均年齢を取得しています。

列 age は数値 (float) ですが、それでもこのエラーが発生します。

groupBy関数や SQL クエリを使用せずに平均などを取得する他の方法を知っていますか。

python apache-spark apache-spark-sql pyspark pyspark-sql

2015-09-13T14:06:36.870

0 投票する

1 に答える

1441 参照

apache-spark-sql - JDBC ドライバーを介して Spark を HAWQ に接続する

greenplum の odbc/jdbc ドライバー (適切な Pivotal ページからダウンロード) を使用して、Spark から HAWQ に接続しようとしています。

Spark 1.4 を使用して、Python で記述されたサンプルコードを次に示します (すべての大文字には適切な変数の割り当てがあります) ...

...

Spark submit コマンドは、odbc ドライバーをクラスパスに追加します。基本的な sqlContext のインスタンス化で「hello world」を実行しましたが、クラスター上ですべてが正常に動作しています。しかし、HAWQ postgresql db に実際に接続しようとすると、実行されません。

エラー：

何か考えや提案はありますか？「df = sqlContext.read.load...」定義の少なくとも 20 の組み合わせを試しましたが、役に立ちませんでした。

apache-spark-sql pyspark-sql hawq

2015-09-16T22:39:29.873

0 投票する

2 に答える

8113 参照

apache-spark - 別の RDD/df を使用して、Spark RDD またはデータフレームでルックアップ/変換を実行する

非常に簡単なように思われるものを実装するのに苦労しています：

私の目標は、2 番目の RDD/データフレームをルックアップテーブルまたは翻訳辞書として使用して、RDD/データフレームで翻訳を行うことです。これらの翻訳を複数の列で行いたいです。

問題を説明する最も簡単な方法は、例です。入力として次の 2 つの RDD があるとします。

と

私の希望する出力RDDは次のとおりです。

それを生産するにはどうすればよいですか？

これは SQL では簡単な問題ですが、Spark の RDD を使用した明白な解決策は知りません。join、cogroupなどのメソッドは、複数列の RDD には適していないようで、結合する列を指定できません。

何か案は？SQLContext が答えですか?

apache-spark pyspark pyspark-sql

2015-10-13T01:29:37.700

0 投票する

2 に答える

3755 参照

apache-spark - Spark RDD groupByKey + 結合と結合のパフォーマンス

他のユーザーと共有しているクラスターで Spark を使用しています。したがって、実行時間だけに基づいて、どのコードがより効率的に実行されるかを判断することは信頼できません。私がより効率的なコードを実行しているとき、他の誰かが巨大なデータを実行している可能性があり、私のコードを長時間実行させているからです。

では、ここで 2 つの質問をしてもよろしいでしょうか。

join関数を使用して 2 に参加していましたが、次のようにを使用する前に使用RDDsしようとしています:groupByKey()join

もっと時間がかかったように見えますが、Hadoop Hive を使用していたとき、グループによってクエリの実行が高速化されたことを覚えています。Spark は遅延評価を使用しているため、groupByKey以前より高速になるかどうか疑問に思ってjoinいます
Spark に SQL モジュールがあることに気付きました。今のところ実際に試す時間はありませんが、SQL モジュールと RDD SQL のような関数の違いは何ですか?

apache-spark pyspark rdd pyspark-sql

2015-10-24T21:13:29.933

0 投票する

1 に答える

27540 参照

python - データフレームの新しい派生列をブール値から整数にキャストする

次のスキーマを持つ DataFrame があるxとします。

次に、DataFrame を取得します。

整数の派生列が必要です。ブール列を作成できます：

私の新しいスキーマは次のとおりです。

yただし、列に False の場合は 0、True の場合は 1 を含めたいと思います。

cast関数は列ではなくでDataFrameのみ操作でき、関数withColumnはでのみ操作できDataFrameます。新しい列を追加して同時に整数にキャストするにはどうすればよいですか?

python apache-spark pyspark apache-spark-sql pyspark-sql

2015-10-26T20:02:14.157

1 2 3 4 5 6 7 8 9 10

問題タブ [pyspark-sql]

python - 複数値列で JSON データをフィルタリングする方法

python - PySpark: フィルター関数を使用した後に列の平均を取る

apache-spark-sql - JDBC ドライバーを介して Spark を HAWQ に接続する

apache-spark - 別の RDD/df を使用して、Spark RDD またはデータ フレームでルックアップ/変換を実行する

apache-spark - Spark RDD groupByKey + 結合と結合のパフォーマンス

python - データフレームの新しい派生列をブール値から整数にキャストする

Reference

apache-spark - 別の RDD/df を使用して、Spark RDD またはデータフレームでルックアップ/変換を実行する