1

データセンター DC1 の Hadoop クラスター H1 に存在するデータを、データセンター DC2 の別の Hadoop クラスター H2 にレプリケートする最善の方法は何かと考えていました (ウォーム バックアップが望ましい)。Hadoop はデータのレプリケーションを行い、作成されるデータのコピーの数は、hdfs-site.xml で設定されたレプリケーション ファクターによって決定されることを知っています。これに関連していくつか質問があります

  • H1 のデータ ノードが DC1 と DC2 の両方に存在するように、1 つのクラスターのデータ ノードを両方のデータ センターに分散させることは理にかなっていますか。これが理にかなっていて実行可能である場合、H2は必要ないということですか?

  • データノードのみを両方のデータセンターに分散させるのではなく、ネームノードとデータノードを両方のデータセンターに分散させることは理にかなっていますか?

また、人々が distcp を使用しており、多くのツールが distcp の上に構築されていると聞いています。しかし、distcp は遅延バックアップを行い、コールド バックアップよりもウォーム バックアップを優先します。

これに Kafka を使用することを提案する人もいますが、どのように使用すればよいかわかりません。

どんな助けでも大歓迎です。ありがとう。

4

1 に答える 1

0

それは、何を保護しようとしているかによって異なります。サイトの障害から保護したい場合、distcp がクロス データセンター レプリケーションの唯一のオプションのようです。ただし、ご指摘のとおり、distcp には制限があります。レプリケーションや複数のレプリカでは保護できないため、スナップショットを使用してユーザーのミスやアプリケーションの破損から保護できます。コードを記述して保守したくない場合は、バックアップ プロセスを自動化するための他の商用ツールも利用できます。

于 2016-02-19T05:57:58.897 に答える