Spark初心者で、以下のサイトを参考にPySparkをインストールしようとしています。
http://ramhiser.com/2015/02/01/configuring-ipython-notebook-support-for-pyspark/
ビルド済みパッケージと、SBT を介して Spark パッケージをビルドすることの両方をインストールしようとしました。
IPython Notebook で Python コードを実行しようとすると、以下のエラーが発生します。
NameError Traceback (most recent call last)
<ipython-input-1-f7aa330f6984> in <module>()
1 # Check that Spark is working
----> 2 largeRange = sc.parallelize(xrange(100000))
3 reduceTest = largeRange.reduce(lambda a, b: a + b)
4 filterReduceTest = largeRange.filter(lambda x: x % 7 == 0).sum()
5
NameError: name 'sc' is not defined
コマンド ウィンドウに、以下のエラーが表示されます。
<strong>Failed to find Spark assembly JAR.</strong>
<strong>You need to build Spark before running this program.</strong>
spark-shellコマンドを実行したときに scala プロンプトが表示されたことに注意してください
アップデート:
友人の助けを借りて、.ipython/profile_pyspark/startup/00-pyspark-setup.py ファイルの内容を修正することで、Spark アセンブリ JAR に関連する問題を修正できました。
私は今、Spark コンテキスト変数の問題だけを抱えています。現在の問題を適切に反映するようにタイトルを変更します。