0

ユースケース: HDFS クラスターからマスターとスレーブの同じセットアップを使用して別のクラスターにすべてのデータをコピーする必要があり、以前のクラスターを解放して、新しいクラスターでジョブの実行を開始します。

このミラーリングに役立つ Apache Falcon と Wandisco のノンストップ Hadoop について読んだことがあります。しかし、エコシステムの一部としてそれらを持っている場合、それらが提供する他の利点についてはわかりません (どちらがより有利でしょうか? - ユースケースによって異なりますが、特にあるかどうかを知りたいです)。あなたの経験に応じて、Falcon と Wandisco の類推を提供できますか?

4

1 に答える 1

4

(免責事項: 私は WANdisco で働いています。)

私の見解では、製品は補完的です。Falcon は、データ ワークフロー ステージの設定など、データ転送以外にも多くのことを行います。WANdisco の製品は、アクティブ-アクティブ データ レプリケーションを行います (つまり、ソース クラスタとターゲット クラスタの両方からデータを同等に使用できます)。

あなたのユースケースでは、Falcon を使用している場合、実際には DistCP を使用してデータを新しいクラスターにコピーしています。データの大部分を取得するために初期転送を実行し、その後、ある時点ですべてのデルタを取得するために最終的なカットオーバーを実行する必要がある場合があります。その後、新しいクラスターでアプリケーションを実行できるようになります。

WANdisco の製品でデータ転送を行った場合、レプリケーション エンジンが Paxos アルゴリズムを使用して変更を調整するため、両方のクラスターを同時に使用できます。これにより、段階的な移行が容易になる可能性があります。

DistCP と比較して継続的なアクティブ/アクティブ レプリケーションの違いに気付くその他のシナリオは、バックアップと災害復旧、および複数のデータ センターへの取り込みなどです。それが役立つことを願っています。

于 2015-04-17T14:27:46.580 に答える