問題タブ [pyspark-dataframes]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1080 問題

0 投票する

1 に答える

37 参照

pyspark - udf を使用した Pyspark groupby: ローカルマシンでのパフォーマンスの低下

それぞれ15GBのいくつかの毎日のファイルで構成される巨大なデータセットに分析を実装しようとしています。より高速にするために、テスト目的で、関連するすべてのシナリオを含む非常に小さなデータセットを作成しました。ユーザーごとに正しい一連のアクション (つまり、ログや監査に似ています) を分析する必要があります。

そのために、udf 関数を定義してから groupby を適用しました。私のユースケースを再現するコードの下：

これにより、次の結果が得られます。

遅すぎませんか？

condaを搭載した最新のラップトップを使用しています。conda ナビゲーターを使用して pyspark をインストールしました。

私が間違っていることはありますか？このような小さなデータセットには多すぎます

pyspark pyspark-dataframes

2019-08-28T10:42:17.607

0 投票する

1 に答える

252 参照

pyspark - Informatica トランスフォーメーションの Pyspark への変換

informatica トランスフォーメーションを pyspark トランスフォーメーションに変換しようとしていますが、以下に示すコードで char を置き換えることに固執しています。

これは私が試したものです：

informatica を pyspark 変換に変換するのを手伝ってください。

2019-08-29T02:50:00.167

0 投票する

1 に答える

65 参照

dataframe - PySpark データフレーム: 特定の行を統合する

私はこれを理解するのに苦労しています

簡単な例を次に示します。

同じ Id が複数の状態にある場合に、1 つの状態のみを保存するように、このデータフレームをフォーマットしたいと思います。この例では、ID が「a」の行は、状態が「NJ」と「GA」ではなく「NJ」である必要があります。

結果は次のようになります。

これはどのように達成できますか？ありがとう！！

dataframe pyspark apache-spark-sql pyspark-dataframes

2019-08-29T20:15:27.393

1 2 3 4 5 6 7 8 9 10

問題タブ [pyspark-dataframes]

pyspark - udf を使用した Pyspark groupby: ローカル マシンでのパフォーマンスの低下

pyspark - Informatica トランスフォーメーションの Pyspark への変換

dataframe - PySpark データフレーム: 特定の行を統合する

Reference

pyspark - udf を使用した Pyspark groupby: ローカルマシンでのパフォーマンスの低下