1 マスター、3 ワーカー クラスター全体に配布する PySpark ジョブがあります。
コードのデバッグに役立つ Python 印刷コマンドがいくつかあります。
print(len(X_train), 'train sequences')
print(len(X_test), 'test sequences')
print('Pad sequences (samples x time)')
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)
print('X_train shape:', X_train.shape)
print('X_test shape:', X_test.shape)
これで、マスターをローカルに設定して Google Dataproc でコードを実行すると、印刷が正しく出力されます。ただし、yaarn ベースの Spark を使用したプリントである yarn で実行しようとすると、Google Cloud Console の Dataproc UI のジョブ セクションにプリント出力が表示されません。
Google Dataproc コンソールに表示されない各ワーカーとマスターからのこれらの python 印刷出力にはどこからアクセスできますか