問題タブ [pyspark-dataframes]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
418 参照

python - TypeError: &: 'str' および 'method' のサポートされていないオペランド型

Spark データフレーム API 操作を使用してハイブ SQL を変換しています。使用例の 1 つは、空白および NULL の文字列列を検証する必要があります。

要件を満たすために以下のコードを書きました

このチェックでエラーが発生しています。どうすればこの条件を満たすことができますか?

0 投票する
0 に答える
483 参照

python - Spark-submit が GC のメモリ不足例外をスローする

私はスパークするのが初めてです。ハイブクエリの下にあり、その上で、pythonでsparkを使用してピボット操作を実行しています。

以下の pyspark スクリプトは、いくつかのピボット操作を行い、ハイブ テーブルに書き込みます。Hive クエリは 1 億 4000 万行を返します。

アプローチ1

上記のスクリプトを spark-submit コマンドで実行しているとき、最終的には

java.lang.OutOfMemoryError: Java ヒープ領域

または何度か

java.lang.OutOfMemoryError: GC オーバーヘッドの制限を超えました

私が使用したspark-submitコマンド。

詳細なログ:

上記のpysparkスクリプトに少し変更を加えましたが、問題なく動作します

アプローチ 2

ただし、上記のスクリプトには中間テーブルの作成が含まれており、追加の手順です。アプローチ2では、同じspark-submitコマンドでlimitキーワードを保持すると正しく機能します。

私のアプローチ1の何が問題なのですか?どうすればそれを機能させることができますか?

注: Spark java.lang.OutOfMemoryError: Java heap spaceに従い、提案されたすべての conf パラメータを試してみましたが、まだ運がありません。