pyspark - Dataproc: Jupyter pyspark ノートブックでグラフフレームパッケージをインポートできない

Question

Dataproc Spark クラスタでは、graphframe パッケージは spark-shell で使用できますが、jupyter pyspark ノートブックでは使用できません。

Pyspark カーネル構成:

PACKAGES_ARG='--packages graphframes:graphframes:0.2.0-spark2.0-s_2.11'

以下は、クラスターを初期化するためのコマンドです。

gcloud dataproc clusters create my-dataproc-cluster --properties spark.jars.packages=com.databricks:graphframes:graphframes:0.2.0-spark2.0-s_2.11 --metadata "JUPYTER_PORT=8124,INIT_ACTIONS_REPO=https://github.com/{xyz}/dataproc-initialization-actions.git" --initialization-actions  gs://dataproc-initialization-actions/jupyter/jupyter.sh --num-workers 2 --properties spark:spark.executorEnv.PYTHONHASHSEED=0,spark:spark.yarn.am.memory=1024m     --worker-machine-type=n1-standard-4  --master-machine-type=n1-standard-4

score 4 · Accepted Answer

これは Spark Shell と YARN の古いバグで、 SPARK-15782で修正されたと思いますが、どうやらこのケースは見逃されていました。

推奨される回避策は追加です

import os
sc.addPyFile(os.path.expanduser('~/.ivy2/jars/graphframes_graphframes-0.2.0-spark2.0-s_2.11.jar'))

インポートする前に。

pyspark - Dataproc: Jupyter pyspark ノートブックでグラフフレーム パッケージをインポートできない

4 に答える 4

Related

Reference

pyspark - Dataproc: Jupyter pyspark ノートブックでグラフフレームパッケージをインポートできない