2

DeltaLakesを使って使い始めようとしてPysparkいます。

deltalake を使用できるようにするために、Anaconda シェル プロンプトで pyspark を次のように呼び出します。</p>

pyspark — packages io.delta:delta-core_2.11:0.3.0

deltalake からの参照は次のとおりです — https://docs.delta.io/latest/quick-start.html

デルタ レイクのすべてのコマンドは、Anaconda シェル プロンプトから正常に機能します。

Jupyter Notebook では、deltalake テーブルを参照するとエラーが発生します。Jupyter Notebook で実行しているコードは次のとおりです。

df_advisorMetrics.write.mode("overwrite").format("delta").save("/DeltaLake/METRICS_F_DELTA")
spark.sql("create table METRICS_F_DELTA using delta location '/DeltaLake/METRICS_F_DELTA'")

以下は、ノートブックの開始時にpysparkに接続するために使用しているコードです-

import findspark
findspark.init()
findspark.find()

import pyspark
findspark.find()

以下は私が得るエラーです:

Py4JJavaError: o116.save の呼び出し中にエラーが発生しました。: java.lang.ClassNotFoundException: データ ソースが見つかりませんでした: デルタ。http://spark.apache.org/third-party-projects.htmlでパッケージを見つけてください。

助言がありますか?

4

3 に答える 3