1

5ノードのテストクラスターのHDFSに多数のハイブテーブルが保存されています。データは約70Gb* 3(複製)である必要があります。いいえ、セットアップ全体をノード数がはるかに多い別の環境に転送したいと思います。2つのクラスター間のネットワーク接続はできません。

問題は、新しいクラスターを使用する時間があまりなく、他のテスト環境で転送をテストする可能性がないことです。したがって、私はしっかりした計画が必要です。:)

どのようなオプションがありますか?

新しいクラスターで最小限の構成作業でハイブのセットアップを転送するにはどうすればよいですか?

5ノードのhdfsディレクトリを新しいクラスターの5ノードにコピーし、残りのノードを新しいクラスターに追加してバランサーを起動することは可能ですか?

4

3 に答える 3

2

ネットワーク接続がないと、注意が必要です。

私は...するだろう

  1. HDFSからある種のリムーバブルストレージ(USBスティック、外付けHDDなど)にファイルをコピーします
  2. ストレージを新しいクラスターに移動します
  3. ファイルをHDFSにコピーして戻します

これは、ファイルの作成/最終アクセス時間、さらに重要なことに、所有権とアクセス許可などのメタデータを保持しないことに注意してください。

このプロセスの小規模なテストは非常に簡単です。

2つのクラスター間で(一時的にでも)ネットワーク接続を取得できる場合は、それdistcpが最適な方法です。map reduceを使用して転送を並列化し、大幅な時間の節約につながる可能性があります。

于 2013-01-11T10:45:03.097 に答える
1

hadoop distcpコマンドを使用して、あるクラスターから別のクラスターにディレクトリとファイルをコピーできます

これはその使用法を説明する小さな例です

http://souravgulati.webs.com/apps/forums/topics/show/8534378-hadoop-copy-files-from-one-hadoop-cluster-to-other-hadoop-cluster

于 2013-04-01T13:09:14.820 に答える
0

次のコマンドを使用してデータをコピーできます:sudo -u hdfs hadoop --config {PathtotheVpcCluster} / vpcCluster distcp hdfs:// SourceIP:8020 / user / hdfs / WholeData hdfs:// DestinationIP:8020 / user / hdfs / WholeData

于 2013-03-31T05:36:44.507 に答える