問題タブ [pyspark-sql]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 複数値列で JSON データをフィルタリングする方法
Spark SQL の助けを借りて、特定のグループ カテゴリに属するすべてのビジネス アイテムを除外しようとしています。
データは JSON ファイルからロードされます。
ファイルのスキーマは次のとおりです。
レストラン ビジネスに関連するすべてのビジネスを抽出しようとしています。
しかし、予想される列のタイプは文字列である必要があることを理解しているため、機能しませんが、私の場合、これは配列です。それについて私に例外を教えてくれます:
私が欲しいものを手に入れるための他の方法を提案してもらえますか?
python - PySpark: フィルター関数を使用した後に列の平均を取る
次のコードを使用して、給与がしきい値を超えている人の平均年齢を取得しています。
列 age は数値 (float) ですが、それでもこのエラーが発生します。
groupBy
関数や SQL クエリを使用せずに平均などを取得する他の方法を知っていますか。
apache-spark-sql - JDBC ドライバーを介して Spark を HAWQ に接続する
greenplum の odbc/jdbc ドライバー (適切な Pivotal ページからダウンロード) を使用して、Spark から HAWQ に接続しようとしています。
Spark 1.4 を使用して、Python で記述されたサンプル コードを次に示します (すべての大文字には適切な変数の割り当てがあります) ...
...
Spark submit コマンドは、odbc ドライバーをクラスパスに追加します。基本的な sqlContext のインスタンス化で「hello world」を実行しましたが、クラスター上ですべてが正常に動作しています。しかし、HAWQ postgresql db に実際に接続しようとすると、実行されません。
エラー:
何か考えや提案はありますか?「df = sqlContext.read.load...」定義の少なくとも 20 の組み合わせを試しましたが、役に立ちませんでした。
apache-spark - 別の RDD/df を使用して、Spark RDD またはデータ フレームでルックアップ/変換を実行する
非常に簡単なように思われるものを実装するのに苦労しています:
私の目標は、2 番目の RDD/データフレームをルックアップ テーブルまたは翻訳辞書として使用して、RDD/データフレームで翻訳を行うことです。これらの翻訳を複数の列で行いたいです。
問題を説明する最も簡単な方法は、例です。入力として次の 2 つの RDD があるとします。
と
私の希望する出力RDDは次のとおりです。
それを生産するにはどうすればよいですか?
これは SQL では簡単な問題ですが、Spark の RDD を使用した明白な解決策は知りません。join、cogroupなどのメソッドは、複数列の RDD には適していないようで、結合する列を指定できません。
何か案は?SQLContext が答えですか?
apache-spark - Spark RDD groupByKey + 結合と結合のパフォーマンス
他のユーザーと共有しているクラスターで Spark を使用しています。したがって、実行時間だけに基づいて、どのコードがより効率的に実行されるかを判断することは信頼できません。私がより効率的なコードを実行しているとき、他の誰かが巨大なデータを実行している可能性があり、私のコードを長時間実行させているからです。
では、ここで 2 つの質問をしてもよろしいでしょうか。
join
関数を使用して 2 に参加していましたが、次のように を使用する前に使用RDDs
しようとしています:groupByKey()
join
もっと時間がかかったように見えますが、Hadoop Hive を使用していたとき、グループによってクエリの実行が高速化されたことを覚えています。Spark は遅延評価を使用しているため、
groupByKey
以前より高速になるかどうか疑問に思ってjoin
いますSpark に SQL モジュールがあることに気付きました。今のところ実際に試す時間はありませんが、SQL モジュールと RDD SQL のような関数の違いは何ですか?
python - データフレームの新しい派生列をブール値から整数にキャストする
次のスキーマを持つ DataFrame があるx
とします。
次に、DataFrame を取得します。
整数の派生列が必要です。ブール列を作成できます:
私の新しいスキーマは次のとおりです。
y
ただし、列に False の場合は 0、True の場合は 1 を含めたいと思います。
cast
関数は列ではなく でDataFrame
のみ操作でき、関数withColumn
は でのみ操作できDataFrame
ます。新しい列を追加して同時に整数にキャストするにはどうすればよいですか?