問題タブ [spark-notebook]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

84 問題

0 投票する

0 に答える

60 参照

python - Pyspark で、行が 0 から 1 に変化したときにリセットされ、すべてが 1 のときにインクリメントするシーケンスを作成するにはどうすればよいですか?

このような pyspark データフレームがあり、次のように SEQ 出力が必要です。

データが正しく表示されているかどうかはわかりません。添付の写真:ここに画像の説明を入力してください

私はこのようなことをしました:

SEQをリードまたはラグできるかどうかはわかりません。これを行う方法を助けてください

2021-05-10T14:09:34.040

0 投票する

2 に答える

328 参照

python - Azure Data Factory またはローカルの if ステートメントからの databricks Python ノートブック

次を使用して、ADF からパラメーターを読み取る Databricks Python ノートブックがあります。

ノートブックを対話的に実行すると、dbutils への呼び出しが単純な代入に置き換えられるように、ノートブックコードで実行できる IF ステートメントまたは類似の処理はありますか? 論理的には、次のようなものが必要です。

そのようなことが可能であれば、ノートブックの残りの部分を変更するたびに dbutils 呼び出しをコメントアウトする必要があるという代替案よりも優れています:)スクリプトをJupyter/PyCharmまたはから実行できるように、同様のことを行いましたコマンドラインを使用していますが、Python インタープリターに ADF から呼び出されたことを伝えるものは何も認識していません。

どうもありがとう！

python azure-data-factory databricks spark-notebook

2021-06-03T20:44:41.570

0 投票する

0 に答える

82 参照

python - py4j.protocol.Py4JJavaError、ステージの失敗によりジョブが中止されました

私の問題は、辞書アキュムレータを作成したときに発生しました。ネストされた辞書にデータフレームのデータを入力しようとしています。ディクショナリは 2 レベルの深さで、2 番目のレベルの値は次のようになります。

AWS sagemaker ノートブックでコードを実行していますが、その環境で実行する必要があります。PySpark カーネルを使用しています。私のアキュムレータは次のように定義されています。

上記のコードは正常に実行されます。私は、sagemaker ノートブック内で分離して実行したため、それを知っています。次のスニペットは、プログラムをクラッシュさせます。

ここにエラーログがあります

python apache-spark pyspark amazon-sagemaker spark-notebook

2021-07-01T17:47:39.803

1 2 3 4 5 6 7 8 9 10

問題タブ [spark-notebook]

python - Pyspark で、行が 0 から 1 に変化したときにリセットされ、すべてが 1 のときにインクリメントするシーケンスを作成するにはどうすればよいですか?

python - Azure Data Factory またはローカルの if ステートメントからの databricks Python ノートブック

python - py4j.protocol.Py4JJavaError、ステージの失敗によりジョブが中止されました

Reference