データセンター DC1 の Hadoop クラスター H1 に存在するデータを、データセンター DC2 の別の Hadoop クラスター H2 にレプリケートする最善の方法は何かと考えていました (ウォーム バックアップが望ましい)。Hadoop はデータのレプリケーションを行い、作成されるデータのコピーの数は、hdfs-site.xml で設定されたレプリケーション ファクターによって決定されることを知っています。これに関連していくつか質問があります
H1 のデータ ノードが DC1 と DC2 の両方に存在するように、1 つのクラスターのデータ ノードを両方のデータ センターに分散させることは理にかなっていますか。これが理にかなっていて実行可能である場合、H2は必要ないということですか?
データノードのみを両方のデータセンターに分散させるのではなく、ネームノードとデータノードを両方のデータセンターに分散させることは理にかなっていますか?
また、人々が distcp を使用しており、多くのツールが distcp の上に構築されていると聞いています。しかし、distcp は遅延バックアップを行い、コールド バックアップよりもウォーム バックアップを優先します。
これに Kafka を使用することを提案する人もいますが、どのように使用すればよいかわかりません。
どんな助けでも大歓迎です。ありがとう。