3

pyspark で avro ファイルを読み込もうとしています。How to read Avro file in PySparkから、spark-avro がそれを行うための最良の方法であることがわかりましたが、Github repoからそれをインストールする方法がわかりません。ダウンロード可能な jar はありません。自分でビルドしますか? どのように?

クラスターで実行されているのは Spark 1.6 (pyspark) です。私はそれをセットアップしなかったので、構成についてはあまり知りませんが、sudoアクセスがあるので、インストールできるはずです。ただし、マシンには直接インターネットにアクセスできないため、手動でコピーしてインストールする必要があります。

ありがとうございました。

4

2 に答える 2

7

またはspark-avro実行時にパッケージとして追加できます: https://github.com/databricks/spark-avro#with-spark-shell-or-spark-submitただし、これにはドライバーでのインターネットアクセスが必要です (ドライバーはすべてのファイルを配布します)執行者に)。pysparkspark-submit

ドライバーでインターネットにアクセスできない場合は、spark-avro自分でファット jarをビルドする必要があります。

git clone https://github.com/databricks/spark-avro.git
cd spark-avro
# If you are using spark package other than newest, 
# checkout appropriate tag based on table in spark-avro README, 
# for example for spark 1.6:
# git checkout v2.0.1 
./build/sbt assembly

次に、pyspark シェルを使用してテストします。

./bin/pyspark --jars ~/git/spark-avro/target/scala-2.11/spark-avro-assembly-3.1.0-SNAPSHOT.jar

>>> spark.range(10).write.format("com.databricks.spark.avro").save("/tmp/output")
>>> spark.read.format("com.databricks.spark.avro").load("/tmp/output").show()
+---+
| id|
+---+
|  7|
|  8|
|  9|
|  2|
|  3|
|  4|
|  0|
|  1|
|  5|
|  6|
+---+
于 2016-11-17T06:21:21.983 に答える