25

Spark初心者で、以下のサイトを参考にPySparkをインストールしようとしています。

http://ramhiser.com/2015/02/01/configuring-ipython-notebook-support-for-pyspark/

ビルド済みパッケージと、SBT を介して Spark パッケージをビルドすることの両方をインストールしようとしました。

IPython Notebook で Python コードを実行しようとすると、以下のエラーが発生します。

    NameError                                 Traceback (most recent call last)
   <ipython-input-1-f7aa330f6984> in <module>()
      1 # Check that Spark is working
----> 2 largeRange = sc.parallelize(xrange(100000))
      3 reduceTest = largeRange.reduce(lambda a, b: a + b)
      4 filterReduceTest = largeRange.filter(lambda x: x % 7 == 0).sum()
      5 

      NameError: name 'sc' is not defined

コマンド ウィンドウに、以下のエラーが表示されます。

<strong>Failed to find Spark assembly JAR.</strong>
<strong>You need to build Spark before running this program.</strong>

spark-shellコマンドを実行したときに scala プロンプトが表示されたことに注意してください

アップデート:

友人の助けを借りて、.ipython/profile_pyspark/startup/00-pyspark-setup.py ファイルの内容を修正することで、Spark アセンブリ JAR に関連する問題を修正できました。

私は今、Spark コンテキスト変数の問題だけを抱えています。現在の問題を適切に反映するようにタイトルを変更します。

4

13 に答える 13

50

パスに pyspark を配置した後、次のことを行う必要があります。

from pyspark import SparkContext
sc =SparkContext()
于 2015-06-12T00:08:20.473 に答える
5

少しだけ改善。Python スクリプト ファイルの先頭に以下を追加します。

#! /bin/python
from pyspark import SparkContext, SparkConf
sc =SparkContext()

# your code starts here
于 2016-08-09T09:16:19.187 に答える
2

Java gateway process exited before sending the driver its port numberエラーメッセージも表示されました。

この問題は、Hadoop 用にビルド済みのバージョンの 1 つをダウンロードすることで解決できました (私は Hadoop 2.4 用のものを使用しました)。私はHadoopを使用していないので、これが何かを変えた理由はわかりませんが、今では問題なく動作しています...

于 2015-06-23T08:44:32.603 に答える
1

Spark on my Mac is 1.6.0 so adding pyspark-shell did not solve the problem. What worked for me is following the answer given here by @karenyng

pyspark_submit_args = os.environ.get("PYSPARK_SUBMIT_ARGS", "")
if not "pyspark-shell" in pyspark_submit_args: pyspark_submit_args += " pyspark-shell"
os.environ["PYSPARK_SUBMIT_ARGS"] = pyspark_submit_args
于 2016-02-18T08:26:56.843 に答える
0

私の場合、別のノートブックが実行されていたという同じ問題がありました(最近のバージョンでは緑色で表示されています)。それらの1つを選択してシャットダウンしたところ、正常に機能しました。

古いスレッドを呼び出して申し訳ありませんが、誰かを助けるかもしれません:)

于 2015-07-28T17:49:29.787 に答える
0

このスクリプトは私にとってはうまくいきました(Linuxで):

#!/bin/bash

export PYSPARK_DRIVER_PYTHON=ipython
export PYSPARK_DRIVER_PYTHON_OPTS="--pylab -c 'from pyspark import SparkContext; sc=SparkContext()' -i"
export PYSPARK_SUBMIT_ARGS="--master local[2] pyspark-shell"

pyspark

私がそこに電話pysparkしているときに呼び出すには、「spark/bin」インストールパスがPATH変数にあると想定しています。そうでない場合は、代わりに を呼び出します/path/to/spark/bin/pyspark

于 2017-01-27T17:22:36.480 に答える