BigQuery テーブルに格納されている大規模なデータセットがあり、ETL データ処理のために pypark RDD にロードしたいと考えています。
BigQuery が Hadoop の入出力形式をサポートしていることに気付きました
https://cloud.google.com/hadoop/writing-with-bigquery-connector
pyspark は、メソッド「newAPIHadoopRDD」を使用して RDD を作成するために、このインターフェイスを使用できる必要があります。
http://spark.apache.org/docs/latest/api/python/pyspark.html
残念ながら、両端のドキュメントは不足しているようで、Hadoop/Spark/BigQuery に関する私の知識を超えています。これを行う方法を考え出した人はいますか?