11

BigQuery テーブルに格納されている大規模なデータセットがあり、ETL データ処理のために pypark RDD にロードしたいと考えています。

BigQuery が Hadoop の入出力形式をサポートしていることに気付きました

https://cloud.google.com/hadoop/writing-with-bigquery-connector

pyspark は、メソッド「newAPIHadoopRDD」を使用して RDD を作成するために、このインターフェイスを使用できる必要があります。

http://spark.apache.org/docs/latest/api/python/pyspark.html

残念ながら、両端のドキュメントは不足しているようで、Hadoop/Spark/BigQuery に関する私の知識を超えています。これを行う方法を考え出した人はいますか?

4

1 に答える 1