hadoop - 異なるデータセンターにある複数の Hadoop クラスター間でデータを複製する

Question

データセンター DC1 の Hadoop クラスター H1 に存在するデータを、データセンター DC2 の別の Hadoop クラスター H2 にレプリケートする最善の方法は何かと考えていました (ウォームバックアップが望ましい)。Hadoop はデータのレプリケーションを行い、作成されるデータのコピーの数は、hdfs-site.xml で設定されたレプリケーションファクターによって決定されることを知っています。これに関連していくつか質問があります

H1 のデータノードが DC1 と DC2 の両方に存在するように、1 つのクラスターのデータノードを両方のデータセンターに分散させることは理にかなっていますか。これが理にかなっていて実行可能である場合、H2は必要ないということですか?
データノードのみを両方のデータセンターに分散させるのではなく、ネームノードとデータノードを両方のデータセンターに分散させることは理にかなっていますか?

また、人々が distcp を使用しており、多くのツールが distcp の上に構築されていると聞いています。しかし、distcp は遅延バックアップを行い、コールドバックアップよりもウォームバックアップを優先します。

これに Kafka を使用することを提案する人もいますが、どのように使用すればよいかわかりません。

どんな助けでも大歓迎です。ありがとう。

score 0 · Accepted Answer

それは、何を保護しようとしているかによって異なります。サイトの障害から保護したい場合、distcp がクロスデータセンターレプリケーションの唯一のオプションのようです。ただし、ご指摘のとおり、distcp には制限があります。レプリケーションや複数のレプリカでは保護できないため、スナップショットを使用してユーザーのミスやアプリケーションの破損から保護できます。コードを記述して保守したくない場合は、バックアッププロセスを自動化するための他の商用ツールも利用できます。

hadoop - 異なるデータセンターにある複数の Hadoop クラスター間でデータを複製する

1 に答える 1

Related

Reference