amazon-emr - Amazon EMR ブートストラップを高速化するには?

Question

集中的な計算に amazon EMR を使用していますが、計算を開始するのに約 7 分かかります。計算をすぐに開始する賢い方法はありますか? 計算は、ユーザー向けの Web サイトから開始された Python ストリームであるため、長いスタートアップを行う余裕はありません。

アマゾン AWS という海の選択肢を単純に見逃したのかもしれません。ジョブを起動するシンプルさ (これが私が EMR を使用したものです)、スケーラビリティ、そして使用した分だけ支払う (そして起動時間は役に立ちません) ことだけが必要です。

score 8 · Accepted Answer

これは古い質問であることは承知していますが、Amazon EMR でのブートストラップ時間を短縮することを期待してこのスレッドを見つけた次の検索者に追加するいくつかの洞察がありました。

しばらくの間、クラスターの起動になぜこれほど時間がかかるのか疑問に思っていました。通常は約 15 分です。通常は 1 時間以内に完了するジョブの場合、これにはかなりの時間がかかります。ジョブが 1 時間以上かかることもありますが、幸いなことに、AWS は完全なブートストラップ時間に対して料金を請求しないと思います。

ここ数日、起動時間が改善されていることに気付きました。4 月と 5 月の第 1 週にスポット市場が非常に不安定になったことがわかります。通常、クラスター全体をスポットインスタンスで開始します。失敗はオプションであり、私の場合はコスト削減によりこの手法が正当化されます。ただし、クラスターが開始するまで 14 時間待った後、オンデマンドに切り替える必要がありました。OnDemand クラスターは約 5 分で開始します。狂気が和らいだように見えるのでスポットに戻ったので、クラスターの15分に戻りました。

そのため、コアノードまたはマスターノードでスポットインスタンスを使用している場合は、起動時間が長くなることが予想されます。コアで OnDemand の小さなセットを使用して実験し、多数のスポットインスタンスを追加して、スタートアップに役立ち、スポットマーケットのボラティリティをより適切に処理できるかどうかを確認します。

score 2 · Accepted Answer

これはごく普通のことであり、それについてできることはほとんどありません。100以上のノードクラスターを開始していますが、処理を開始するまでに15分以上かかることがわかりました。バックグラウンドで行われている作業の量を考えると、クラスターを構成して必要なデータを読み込むために15分ほどかかることを非常に嬉しく思います。恐ろしい獣の性質。

score 1 · Accepted Answer

データソースはどこでホストされていますか？

S3の場合（おそらく）、小さなファイルがたくさんある場合、時間がかかるのは（ファイルごとの）各接続の遅延です。

それが唯一の理由である場合、7分の起動時間はS3時間からの読み取りの約5分に変換されます=>S3の最大1GBの入力ファイル

amazon-emr - Amazon EMR ブートストラップを高速化するには?

3 に答える 3

Related

Reference