問題タブ [distcp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - s3 への distcp hdfs が失敗する
拡張子が.avroの何百ものosの小さなファイルがある1つのディレクトリを実行しようとしていました
ただし、一部のファイルでは次のエラーで失敗します:
JobTracker UI のスニペットを次に示します。
この問題について知っている人はいますか?
hadoop - FTP から HDFS へのファイルのコピーに失敗しました
FTP サーバー (F [ftp])、Linux ボックス (S [スタンドアロン])、および Hadoop クラスター (C [クラスター]) があります。現在のファイル フローは F->S->C です。S をスキップしてパフォーマンスを向上させようとしています。
現在の流れは次のとおりです。
私は試した:
と:
両方ともハングします。ジョブである distcp はタイムアウトによって強制終了されます。ログ (hadoop job -logs) は、タイムアウトによって強制終了されたとだけ述べています。Cのいくつかのノードからftpからwgetしようとしましたが、うまくいきました。その理由と、それを理解するためのヒントは何でしょうか?
amazon-s3 - oozie で shell-action を使用して s3 から hdfs への distcp を実行できない
distcp を使用して s3 から hdfs にデータをコピーしようとしています。以下は、distcp を実行しているシェル スクリプトです。
以下は、私の job.properties ファイルです。
私のworkflow.xmlは次のとおりです。
Oozie ログは次のとおりです。
shell-action を使用して distcp を実行したいのですが、oozie では distcp-action を実行したくありません。
hadoop - Hadoop で webhdfs を介してディレクトリ全体をプルする方法はありますか?
2 つのクラスターがあり、1 つのクラスターから別のクラスターにデータをプルする必要があります。
私たちが利用できる唯一のオプションは、webhdfs を介してデータをプルすることです!!
しかし残念なことに、webhdfs を介して一度に取得できるファイルは 1 つだけであり、ファイルごとに 2 つのコマンドを実行する必要があります。
私の率直な質問は、webhdfs を介して、ディレクトリ データ全体をプルできる方法はありますか??
誰かがこれで私を助けてくれませんか...
注: DISTCP は、セキュリティ上の問題により、私たちにとって有効なオプションではありません!!
hadoop - MR1 を使用した CDH5.2 の distcp2
s3 からローカル クラスタへの distcp 時に、マッパーの帯域幅を制限する必要があります。
そこで、 https: //repository.cloudera.com から hadoop-distcp-2.5.0-cdh5.2.0-20141009.063640-188.jar をダウンロードしました。
リンクは次のとおりです。 -20141009.063640-188.jar
次にdistcpコマンドを実行しましたが、エラーが発生しました。私が何か間違ったことをしているかどうかわからない g
どんな助けでも
hadoop - Distcp を使用した Hadoop でのデータ取り込み
distcp がクラスタ間/クラスタ内のデータ転送に使用されることを理解しています。distcp を使用して、ローカル ファイル システムから HDFS にデータを取り込むことは可能ですか。file:///.... を使用して HDFS の外部のローカル ファイルを指すことができることは理解していますが、クラスター間/クラスター内転送と比較して、その信頼性と速度はどれくらいか。