問題タブ [pyspark-dataframes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
37 参照

pyspark - udf を使用した Pyspark groupby: ローカル マシンでのパフォーマンスの低下

それぞれ15GBのいくつかの毎日のファイルで構成される巨大なデータセットに分析を実装しようとしています。より高速にするために、テスト目的で、関連するすべてのシナリオを含む非常に小さなデータセットを作成しました。ユーザーごとに正しい一連のアクション (つまり、ログや監査に似ています) を分析する必要があります。

そのために、udf 関数を定義してから groupby を適用しました。私のユースケースを再現するコードの下:

これにより、次の結果が得られます。

遅すぎませんか?

condaを搭載した最新のラップトップを使用しています。conda ナビゲーターを使用して pyspark をインストールしました。

私が間違っていることはありますか?このような小さなデータセットには多すぎます

0 投票する
1 に答える
252 参照

pyspark - Informatica トランスフォーメーションの Pyspark への変換

informatica トランスフォーメーションを pyspark トランスフォーメーションに変換しようとしていますが、以下に示すコードで char を置き換えることに固執しています。

これは私が試したものです:

informatica を pyspark 変換に変換するのを手伝ってください。

0 投票する
1 に答える
65 参照

dataframe - PySpark データフレーム: 特定の行を統合する

私はこれを理解するのに苦労しています

簡単な例を次に示します。

同じ Id が複数の状態にある場合に、1 つの状態のみを保存するように、このデータフレームをフォーマットしたいと思います。この例では、ID が「a」の行は、状態が「NJ」と「GA」ではなく「NJ」である必要があります。

結果は次のようになります。

これはどのように達成できますか?ありがとう!!