2

Yarn で Pyspark を実行しようとしていますが、コンソールでコマンドを入力すると、次のエラーが表示されます。

ローカル モードと糸モードの両方で、Spark で scala シェルを実行できます。Pyspark はローカル モードでは問題なく動作しますが、糸モードでは動作しません。

OS:RHEL6.x

Hadoop ディストリビューション: IBM BigInsights 4.0

スパークバージョン:1.2.1

警告 scheduler.TaskSetManager: ステージ 0.0 でタスク 0.0 が失われました (TID 0、作業): org.apache.spark.SparkException: Python ワーカーからのエラー: /usr/bin/python: pyspark PYTHONPATH という名前のモジュールはありません: /mnt/sdj1/ hadoop/yarn/local/filecache/13/spark-assembly.jar (私のコメント: このパスは Linux ファイルシステムには存在しませんが、論理データ ノード) org.apache.spark.api.python.PythonWorkerFactory.startDaemon(PythonWorkerFactory.scala:163) の java.io.DataInputStream.readInt(DataInputStream.java:392) での java.io.EOFException (org.apache.spark.api で)。 python.PythonWorkerFactory.createThroughDaemon(PythonWorkerFactory.scala:86) org.apache.spark.api.python.PythonWorkerFactory.create(PythonWorkerFactory.scala:62) org.apache.spark.SparkEnv.createPythonWorker(SparkEnv.scala:102) org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70) で org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:280) で org.apache.spark.rdd.RDD org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:61) の .iterator(RDD.scala:247) org.apache.spark.scheduler.Task.run(Task.scala:56) org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:200) で java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) で java.util.concurrent.ThreadPoolExecutor$Worker で.run(ThreadPoolExecutor.java:615) at java.lang.Thread.run(Thread.java:745)

次のように、エクスポート コマンドを使用して SPARK_HOME と PYTHONPATH を設定しました。

export SPARK_HOME=/path/to/spark
export PYTHONPATH=/path/to/spark/python/:/path/to/spark/lib/spark-assembly.jar

誰かがこれで私を助けてくれますか?

答え:

掘り下げた後、pyspark にはそのままで Big Insights 4.0 にいくつかの問題があることがわかりました。BI 4.1 にアップグレードすることが提案されました。

4

0 に答える 0