0

これは、UI を介して Dataproc で PySpark ジョブとして送信したファイルです。

# Load file data fro Google Cloud Storage to Dataproc cluster, creating an RDD
# Because Spark transforms are 'lazy', we do a 'count()' action to make sure 
#     we successfully loaded the main data file
allFlt = sc.textFile("gs://mybucket/mydatafile")
allFlt.count()
# Remove header from file so we can work w data ony   
header = allFlt.take(1)[0]
dataOnly = allFlt.filter(lambda line: line != header)

開始してからエラーが発生します

allFlt = sc.textFile("gs://thomtect/flightinfo")
NameError: name 'sc' is not defined

どうしてこれなの?Spark コンテキストは、Dataproc によってすでに確立されているはずではありませんか? Spark コマンドとして受け入れられるように、コードに何を追加する必要がありますか?

4

1 に答える 1