Dataproc Spark ジョブからの出力を Google Cloud ロギングに送信する方法はありますか? Dataproc ドキュメントで説明されているように、ジョブ ドライバ(Spark ジョブのマスター)からの出力は、コンソールの [Dataproc] -> [Jobs] で利用できます。Cloud Logging にもログが必要な理由は 2 つあります。
- エグゼキューターからのログを見たいのですが。多くの場合、マスター ログには「エグゼキューターが失われました」と表示されますが、それ以上の詳細はありません。エグゼキューターが何をしようとしているのかについて、さらに情報があれば非常に便利です。
- Cloud Logging は優れたフィルタリングと検索機能を備えています
現在、Cloud Logging に表示される Dataproc からの唯一の出力は、yarn-yarn-nodemanager-* と container_*.stderr からのログ項目です。私のアプリケーション コードからの出力は Dataproc -> Jobs に表示されますが、Cloud Logging には表示されません。これはエグゼキューターではなく、Spark マスターからの出力のみです。