2

1 台のマスター n1-standard-4 と 4 台のワーカーマシン、さらに n1-standard-4 の Dataproc クラスタをスピンアップした場合、デフォルトで作成されるパーティションの数を確認するにはどうすればよいですか? 32 個のパーティションがあることを確認したい場合、PySpark スクリプトでどの構文を使用すればよいですか? Google Storage バケットから .csv ファイルを読み込んでいます。

単純にですか

myRDD = sc.textFile("gs://PathToFile", 32)

実行中のパーティションの数を確認するにはどうすればよいですか (Dataproc ジョブの出力画面を使用しますか?

ありがとう

4

1 に答える 1