問題タブ [pyspark-dataframes]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - TypeError: &: 'str' および 'method' のサポートされていないオペランド型
Spark データフレーム API 操作を使用してハイブ SQL を変換しています。使用例の 1 つは、空白および NULL の文字列列を検証する必要があります。
要件を満たすために以下のコードを書きました
このチェックでエラーが発生しています。どうすればこの条件を満たすことができますか?
python - Spark-submit が GC のメモリ不足例外をスローする
私はスパークするのが初めてです。ハイブクエリの下にあり、その上で、pythonでsparkを使用してピボット操作を実行しています。
以下の pyspark スクリプトは、いくつかのピボット操作を行い、ハイブ テーブルに書き込みます。Hive クエリは 1 億 4000 万行を返します。
アプローチ1
上記のスクリプトを spark-submit コマンドで実行しているとき、最終的には
java.lang.OutOfMemoryError: Java ヒープ領域
または何度か
java.lang.OutOfMemoryError: GC オーバーヘッドの制限を超えました
私が使用したspark-submitコマンド。
詳細なログ:
上記のpysparkスクリプトに少し変更を加えましたが、問題なく動作します
アプローチ 2
ただし、上記のスクリプトには中間テーブルの作成が含まれており、追加の手順です。アプローチ2では、同じspark-submitコマンドでlimitキーワードを保持すると正しく機能します。
私のアプローチ1の何が問題なのですか?どうすればそれを機能させることができますか?
注: Spark java.lang.OutOfMemoryError: Java heap spaceに従い、提案されたすべての conf パラメータを試してみましたが、まだ運がありません。