google-cloud-dataproc - Google Cloud Dataproc - sc.textFile() コマンドでのジョブファイルのエラー

翻译自：https://stackoverflow.com/questions/35329112 2016-02-11T01:14:42.180

399 次

これは、UI を介して Dataproc で PySpark ジョブとして送信したファイルです。

# Load file data fro Google Cloud Storage to Dataproc cluster, creating an RDD
# Because Spark transforms are 'lazy', we do a 'count()' action to make sure 
#     we successfully loaded the main data file
allFlt = sc.textFile("gs://mybucket/mydatafile")
allFlt.count()
# Remove header from file so we can work w data ony   
header = allFlt.take(1)[0]
dataOnly = allFlt.filter(lambda line: line != header)

開始してからエラーが発生します

allFlt = sc.textFile("gs://thomtect/flightinfo")
NameError: name 'sc' is not defined

どうしてこれなの？Spark コンテキストは、Dataproc によってすでに確立されているはずではありませんか? Spark コマンドとして受け入れられるように、コードに何を追加する必要がありますか?

google-cloud-dataproc - Google Cloud Dataproc - sc.textFile() コマンドでのジョブ ファイルのエラー

1 に答える 1

Related

Reference

google-cloud-dataproc - Google Cloud Dataproc - sc.textFile() コマンドでのジョブファイルのエラー