1 台のマスター n1-standard-4 と 4 台のワーカーマシン、さらに n1-standard-4 の Dataproc クラスタをスピンアップした場合、デフォルトで作成されるパーティションの数を確認するにはどうすればよいですか? 32 個のパーティションがあることを確認したい場合、PySpark スクリプトでどの構文を使用すればよいですか? Google Storage バケットから .csv ファイルを読み込んでいます。
単純にですか
myRDD = sc.textFile("gs://PathToFile", 32)
実行中のパーティションの数を確認するにはどうすればよいですか (Dataproc ジョブの出力画面を使用しますか?
ありがとう