問題タブ [distcp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1408 参照

hadoop - あるクラスターから別のクラスターに転送するときに、hadoop ENCRYPT データで distcp を実行します

あるクラスターから別のクラスターに転送する際に、distcp にデータを暗号化するオプションがあるかどうかを知りたいです。S3 クラスターでの暗号化をサポートしていることを知りましたが、それは amazon の S3 と関係があります。あるクラスターから別のクラスターにプレーン テキスト ファイルを移動するとどうなるでしょうか。暗号化されますか、それとも平文で送信されますか? サポートされている場合、そのような暗号化を有効にすることはできますか?

0 投票する
0 に答える
357 参照

hadoop - Hadoop Namenode HA のネームサービスは、クラスタ全体で検出可能である必要があります

要件: Hadoop Namenode HA のネームサービスは、クラスター全体で検出可能である必要があります。

解決策 1: オンラインで見つけた 1 つの解決策は、関連するクラスター内のすべての hdfs-site.xml ファイルにネームサービス構成を追加することです。

問題: 10 個のクラスターがあり、成長しています。新しいクラスターが展開されるたびに、すべてのクラスターに新しいクラスター定義を追加することはできません。

長所: 少数のクラスターで管理しやすい。短所: より多くのクラスターに拡張できません。

解決策 #2: クラスター全体でネーム サービスを解決するための中央サービスを用意し、org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider クラスを拡張するカスタム クラスを用意する 2 つ目のソリューションに取り組むことを計画しています。

より良い解決策や、この問題に対して既に提出されている既存のパッチに関する情報を提供してください。

0 投票する
4 に答える
7852 参照

hadoop - Hadoop から S3 への distcp が「ローカル ディレクトリに空き領域がありません」で失敗する

distcp を使用して、ローカルの Hadoop クラスターから S3 バケットにデータをコピーしようとしています。

「うまくいく」こともありますが、一部のマッパーは失敗し、以下のスタック トレースが表示されます。また、非常に多くのマッパーが失敗し、ジョブ全体がキャンセルされることもあります。

「どのローカル ディレクトリにも空き容量がありません」というエラーが表示されます。私には意味がありません。エッジ ノード (distcp コマンドが実行されている場所)、クラスター、および S3 バケットには十分なスペースがあります。

誰でもこれに光を当てることができますか?

0 投票する
1 に答える
479 参照

java - javaでdistcpパッケージをインポートするにはどうすればよいですか?

Java で distcp パッケージをインポートするにはどうすればよいですか? 依存関係を試し"org.apache.hadoop" % "hadoop-distcp" % "2.7.1"、次のように import ステートメントを使用しました

しかしDistCp、認識されません。

ツール ランナーを使用して Java Hadoop コードで distcp を呼び出そうとしていますが、インポートが機能しません。

ありがとうございました

0 投票する
2 に答える
469 参照

java - 2 つのリモート クラスタ間の DistCp フォールト トレランス

同様の HDFS (両方とも MAPR クラスター) を使用して、あるクラスターから別のクラスターにディレクトリをコピーする必要があります。

DistCpJava APIを使用する予定です。しかし、ディレクトリ内のファイルの重複コピーを避けたかったのです。これらの操作が耐障害性があるかどうかを知りたいですか? つまり、接続が失われたためにファイルが完全にコピーされなかった場合、DistCp がファイルを適切にコピーするためにコピーを再度開始した場合はどうなりますか?