これは、UI を介して Dataproc で PySpark ジョブとして送信したファイルです。
# Load file data fro Google Cloud Storage to Dataproc cluster, creating an RDD
# Because Spark transforms are 'lazy', we do a 'count()' action to make sure
# we successfully loaded the main data file
allFlt = sc.textFile("gs://mybucket/mydatafile")
allFlt.count()
# Remove header from file so we can work w data ony
header = allFlt.take(1)[0]
dataOnly = allFlt.filter(lambda line: line != header)
開始してからエラーが発生します
allFlt = sc.textFile("gs://thomtect/flightinfo")
NameError: name 'sc' is not defined
どうしてこれなの?Spark コンテキストは、Dataproc によってすでに確立されているはずではありませんか? Spark コマンドとして受け入れられるように、コードに何を追加する必要がありますか?