一般に、クラスタのカスタマイズに使用した手順をいくつかのセットアップ スクリプトに抽出し、Dataproc の初期化アクションを使用して、クラスタのデプロイ中のインストールを簡単に自動化することをお勧めします。
これにより、たとえば、複数の同時 Dataproc クラスタで同じ設定を行う場合、マシンタイプを変更する場合、または Dataproc のサブマイナー バージョンのバグ修正を受け取る場合などに、手作業を必要とせずにカスタマイズを簡単に再現できます。たまにリリース。
現時点では、Dataproc クラスタを一時停止する方法として公式にサポートされている方法は実際にはありません。主な理由は、以下に示すいくつかの考慮事項とともに、再現可能なクラスタ デプロイを行うことができるということは、99% の確率で、代わりに初期化アクションのカスタマイズを使用する方がよいことを意味するからです。クラスターをインプレースで一時停止します。とはいえ、 Google Compute Engine のページに移動し、一時停止する Dataproc クラスタの一部であるインスタンスを選択し、それらを削除せずに [停止] をクリックするなど、短期的なハッキングの可能性があります。
Compute Engine の時間単位の料金と Dataproc の vCPU ごとの料金は、基盤となるインスタンスが実行されている場合にのみ発生します。そのため、インスタンスを手動で「停止」している間は、Dataproc がまだリストされていても、Dataproc または Compute Engine のインスタンス時間料金は発生しません。 Dataproc クラスタの概要ページの [VM インスタンス] タブに移動すると警告が表示されますが、クラスタは「RUNNING」と表示されます。
その後、 Google Compute Engine のページから [開始]をクリックするだけでクラスターを再び実行できるようになりますが、次の注意事項を考慮することが重要です。
- クラスターが正常な状態で再起動できない場合があります。ローカル SSD を使用するものはすべて停止して正常に再開することはできませんが、それ以上に、シャットダウンが適切に行われなかった場合、またはユーザーがインストールした設定が壊れている可能性がある場合、Hadoop デーモンは何らかの理由で重要なものをディスクにフラッシュすることに失敗した可能性があります。未知の方法で起動プロセス。
- VM が「停止」されている場合でも、VM は基盤となる永続ディスクの残りに依存するため、「一時停止」中であっても引き続き料金が発生します。GB 月あたり $0.04、Dataproc ノードあたりデフォルトの 500 GB ディスクを想定すると、インスタンスあたり約 $0.028/時間の支払いが継続することになります。通常、データは、Dataproc クラスタの HDFS に長期保存するよりも、Google Cloud Storage に長期保存する方がアクセスしやすく、費用もかかりません。
- 手動のクラスタ セットアップに依存しすぎると、クラスタのサイズを大きくしたり、マシンタイプを変更したり、ゾーンを変更したりする必要がある場合にやり直すのがはるかに難しくなります。対照的に、Dataproc の初期化アクションでは、Dataproc のクラスタ スケーリング機能を使用してクラスタのサイズを変更し、作成された新しいワーカーの初期化アクションを自動的に実行できます。
アップデート
Dataproc は最近、クラスタを停止および開始する機能を開始しました: https://cloud.google.com/dataproc/docs/guides/dataproc-start-stop