11

Zeppelin で csv ファイルを読みたいし、databricks の spark-csv パッケージを使用したい: https://github.com/databricks/spark-csv

spark-shell では、spark-csv を次のように使用できます。

spark-shell --packages com.databricks:spark-csv_2.11:1.2.0

しかし、Zeppelin にそのパッケージを使用するように指示するにはどうすればよいでしょうか?

前もって感謝します!

4

6 に答える 6

15

Spark パッケージで %dep を使用する前に、Spark パッケージ リポジトリを Zeppelin に追加する必要があります。

%dep
z.reset()
z.addRepo("Spark Packages Repo").url("http://dl.bintray.com/spark-packages/maven")
z.load("com.databricks:spark-csv_2.10:1.2.0")

または、これがすべてのノートブックで利用できるようにしたい場合は、Zeppelin のインタープリター構成の spark-submit コマンド設定に --packages オプションを追加してから、インタープリターを再起動できます。これにより、spark-shell メソッドに従ってパッケージが既にロードされているコンテキストが開始されます。

于 2016-01-08T16:22:53.087 に答える
4

編集開始

%dep は Zeppelin 0.6.0 で非推奨になりました。Paul-Armand Verhaegen の回答を参照してください。

0.6.0 より古い zeppelin を使用している場合は、この回答をさらに読んでください。

編集終了

%dep インタープリターを使用して、spark-csv パッケージをロードできます。

お気に入り、

%dep
z.reset()

// Add spark-csv package
z.load("com.databricks:spark-csv_2.10:1.2.0")

https://zeppelin.incubator.apache.org/docs/interpreter/spark.htmlの依存関係の読み込みセクションを参照してください。

すでに Spark コンテキストを初期化している場合、簡単な解決策は、まず zeppelin を再起動し、上記のコードで zeppelin 段落を実行してから、spark コードを実行して CSV ファイルを読み取ることです。

于 2015-10-08T09:53:17.863 に答える
1

Spark Interpreter の依存関係の下に jar ファイルを追加できます。

  1. ナビゲーション バーの [Interpreter] メニューをクリックします。
  2. Spark インタープリターの「編集」ボタンをクリックします。
  3. アーティファクト フィールドと除外フィールドを入力します。
  4. 「保存」を押します
于 2018-03-21T13:49:43.687 に答える
0

別の解決策:

conf/zeppelin-env.sh (私の場合は /etc/zeppelin にあります) に次の行を追加します。

export SPARK_SUBMIT_OPTIONS="--packages com.databricks:spark-csv_2.10:1.2.0"

次に、サービスを開始します。

于 2016-10-28T02:14:34.483 に答える