DeltaLakes
を使って使い始めようとしてPyspark
います。
deltalake を使用できるようにするために、Anaconda シェル プロンプトで pyspark を次のように呼び出します。</p>
pyspark — packages io.delta:delta-core_2.11:0.3.0
deltalake からの参照は次のとおりです — https://docs.delta.io/latest/quick-start.html
デルタ レイクのすべてのコマンドは、Anaconda シェル プロンプトから正常に機能します。
Jupyter Notebook では、deltalake テーブルを参照するとエラーが発生します。Jupyter Notebook で実行しているコードは次のとおりです。
df_advisorMetrics.write.mode("overwrite").format("delta").save("/DeltaLake/METRICS_F_DELTA")
spark.sql("create table METRICS_F_DELTA using delta location '/DeltaLake/METRICS_F_DELTA'")
以下は、ノートブックの開始時にpysparkに接続するために使用しているコードです-
import findspark
findspark.init()
findspark.find()
import pyspark
findspark.find()
以下は私が得るエラーです:
Py4JJavaError: o116.save の呼び出し中にエラーが発生しました。: java.lang.ClassNotFoundException: データ ソースが見つかりませんでした: デルタ。http://spark.apache.org/third-party-projects.htmlでパッケージを見つけてください。
助言がありますか?