BigQuery コネクタを使用してBigQueryからデータを読み取ると、最初にすべてのデータが Google Cloud Storage にコピーされることがわかりました。次に、このデータを並列に Spark に読み込みますが、大きなテーブルを読み込むと、データのコピー段階で非常に長い時間がかかります。BigQuery から Spark にデータを読み込むより効率的な方法はありますか?
別の質問: 2 つの段階で構成される BigQuery からの読み取り (GCS へのコピー、GCS からの並列読み取り)。ステージのコピーは Spark クラスターのサイズの影響を受けますか、それとも一定の時間がかかりますか?