問題タブ [pyspark-dataframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyspark - udf を使用した Pyspark groupby: ローカル マシンでのパフォーマンスの低下
それぞれ15GBのいくつかの毎日のファイルで構成される巨大なデータセットに分析を実装しようとしています。より高速にするために、テスト目的で、関連するすべてのシナリオを含む非常に小さなデータセットを作成しました。ユーザーごとに正しい一連のアクション (つまり、ログや監査に似ています) を分析する必要があります。
そのために、udf 関数を定義してから groupby を適用しました。私のユースケースを再現するコードの下:
これにより、次の結果が得られます。
遅すぎませんか?
condaを搭載した最新のラップトップを使用しています。conda ナビゲーターを使用して pyspark をインストールしました。
私が間違っていることはありますか?このような小さなデータセットには多すぎます
pyspark - Informatica トランスフォーメーションの Pyspark への変換
informatica トランスフォーメーションを pyspark トランスフォーメーションに変換しようとしていますが、以下に示すコードで char を置き換えることに固執しています。
これは私が試したものです:
informatica を pyspark 変換に変換するのを手伝ってください。
dataframe - PySpark データフレーム: 特定の行を統合する
私はこれを理解するのに苦労しています
簡単な例を次に示します。
同じ Id が複数の状態にある場合に、1 つの状態のみを保存するように、このデータフレームをフォーマットしたいと思います。この例では、ID が「a」の行は、状態が「NJ」と「GA」ではなく「NJ」である必要があります。
結果は次のようになります。
これはどのように達成できますか?ありがとう!!