問題タブ [pyspark-dataframes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
4680 参照

apache-spark - pandasデータフレームなしでsparkデータフレームをタプルのリストに変換します

パンダのデータフレームをタプルのリストに変換する既存のロジックがあります。

ここで、df は pandas データフレームです。

誰かがpysparkでパンダなしで同じロジックを実装するのを手伝ってください。

0 投票する
0 に答える
397 参照

python - ピスパーク | ModuleNotFoundError: 'ad' という名前のモジュールがありません

PySpark を使用して、既存のデータフレームに新しい列を追加しようとしています。新しい列のエントリは、既存の列に最も近いビン値を表します。以下に示す例では、numpy 配列bucket_arrayはビン (バケット) を表します。

エラーがすぐに言及される PySpark コードの関連セクションを以下に示します。

上記のコードを Jupyter ノートブックで実行すると、正常に動作し、 dataframe を確認できますbucket_df

それでも、上記のコードを別の python 関数として保存し、Jupyter ノートブックにインポートしてから最後に実行すると、エラーが発生します。行でエラーが発生していることに気付きましたbucket_df.show()。そのエラーの一部を以下に示します。

完全なエラーはここにあります。

bucket.show()行をに置き換えるとprint( bucket.count() )、エラーは表示されず、正常に実行されます (前述のコードを別の関数として使用しても)。

の例をentity_pct_metric_df以下に示します。

上記のエラーを解決するにはどうすればよいですか?