pyspark - pyspark を使用して apache zeppelin が csv の読み取りに失敗する

Question

on で使用Zeppelin-Sandbox 0.5.6しています。にあるファイルを読み込んでいます。問題は、ファイルの読み取りエラーが時々発生することです。インタープリターが機能するまで、インタープリターを数回再起動する必要があります。私のコードは何も変わりません。私はそれを復元することはできず、それがいつ起こっているのかわかりません。Spark 1.6.1Amazon EMRcsvs3

私のコードは次のようになります：

依存関係の定義:

%dep
z.reset()
z.addRepo("Spark Packages Repo").url("http://dl.bintray.com/spark-packages/maven")
z.load("com.databricks:spark-csv_2.10:1.4.0")

使用spark-csv:

%pyspark
import pyspark.sql.functions as func

df = sqlc.read.format("com.databricks.spark.csv").option("header", "true").load("s3://some_location/some_csv.csv")

エラーメッセージ:

 Py4JJavaError: An error occurred while calling o61.load. :
 org.apache.spark.SparkException: Job aborted due to stage failure:
 Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3
 in stage 0.0 (TID 3, ip-172-22-2-187.ec2.internal):
 java.io.InvalidClassException: com.databricks.spark.csv.CsvRelation;
 local class incompatible: stream classdesc serialVersionUID =
 2004612352657595167, local class serialVersionUID =
 6879416841002809418

 ...

 Caused by: java.io.InvalidClassException:
 com.databricks.spark.csv.CsvRelation; local class incompatible

csvをに読み込むdataframeと、残りのコードは正常に動作します。

何かアドバイス？

ありがとう！

score 0 · Accepted Answer

このようにspark-csvパッケージを追加してsparkを実行する必要があります

$ pyspark --packages com.databricks:spark-csv_2.10:1.2.0

これで、spark-csv がクラスパスに追加されます

pyspark - pyspark を使用して apache zeppelin が csv の読み取りに失敗する

1 に答える 1

Related

Reference