2

https://cloud.google.com/dataproc/tutorials/jupyter-notebookを使用して、pyspark で jupyter を正常に実行できます

私の質問は、pyspark (spark-csv や graphframes など) にパッケージを追加し、それらをノートブックで使用する必要がある場合、従うべきベスト プラクティスは何ですか? --packages オプションを使用して新しい pyspark ジョブにパッケージを追加できますが、その新しい pyspark コンテキストをノートブックに接続するにはどうすればよいですか?

4

1 に答える 1

2

ノートブックを機能させるには、ノートブックのセットアップで適切なパッケージ自体を取得する必要があります。リンクした初期化アクションは、Jupyter がクラスターの構成済み Spark ディレクトリを使用し、必要なすべての YARN/filesystem/lib 構成を確実に取得するように機能するため、これを行う最善の方法は、クラスターの作成時にプロパティを追加するのではなく、ジョブ提出時間:

gcloud dataproc clusters create \
    --properties spark:spark.jars.packages=com.databricks:spark-csv_2.11:1.2.0

このStackOverflowエラーspark-defaults.confによると、プロパティを設定することは、オプションspark.jars.packagesを指定することと同等であり、より移植性が高くなります。これは、構成エントリを設定する spark-shell/spark-submit/pyspark ラッパーの単なる構文糖衣であるためです。--packages--packagesspark.jars.packages

于 2016-03-28T23:39:29.313 に答える