apache-spark - Hadoop 入力形式の例を介した pyspark 用の BigQuery コネクタ

翻译自：https://stackoverflow.com/questions/31401239 2015-07-14T08:11:27.803

1600 次

11

BigQuery テーブルに格納されている大規模なデータセットがあり、ETL データ処理のために pypark RDD にロードしたいと考えています。

BigQuery が Hadoop の入出力形式をサポートしていることに気付きました

https://cloud.google.com/hadoop/writing-with-bigquery-connector

pyspark は、メソッド「newAPIHadoopRDD」を使用して RDD を作成するために、このインターフェイスを使用できる必要があります。

http://spark.apache.org/docs/latest/api/python/pyspark.html

残念ながら、両端のドキュメントは不足しているようで、Hadoop/Spark/BigQuery に関する私の知識を超えています。これを行う方法を考え出した人はいますか？

1 に答える 1