pyspark - pyspark を使用して jupyter ノートブックで deltalake テーブルを参照する方法

翻译自：https://stackoverflow.com/questions/57740693 2019-08-31T18:31:53.470

2768 次

DeltaLakesを使って使い始めようとしてPysparkいます。

deltalake を使用できるようにするために、Anaconda シェルプロンプトで pyspark を次のように呼び出します。</p>

pyspark — packages io.delta:delta-core_2.11:0.3.0

deltalake からの参照は次のとおりです — https://docs.delta.io/latest/quick-start.html

デルタレイクのすべてのコマンドは、Anaconda シェルプロンプトから正常に機能します。

Jupyter Notebook では、deltalake テーブルを参照するとエラーが発生します。Jupyter Notebook で実行しているコードは次のとおりです。

df_advisorMetrics.write.mode("overwrite").format("delta").save("/DeltaLake/METRICS_F_DELTA")
spark.sql("create table METRICS_F_DELTA using delta location '/DeltaLake/METRICS_F_DELTA'")

以下は、ノートブックの開始時にpysparkに接続するために使用しているコードです-

import findspark
findspark.init()
findspark.find()

import pyspark
findspark.find()

以下は私が得るエラーです：

Py4JJavaError: o116.save の呼び出し中にエラーが発生しました。: java.lang.ClassNotFoundException: データソースが見つかりませんでした: デルタ。http://spark.apache.org/third-party-projects.htmlでパッケージを見つけてください。

助言がありますか？

pyspark - pyspark を使用して jupyter ノートブックで deltalake テーブルを参照する方法

3 に答える 3

Related

Reference