問題タブ [distcp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hadoop distcp が機能しない
ある HDFS から別の HDFS にデータをコピーしようとしています。1つ目は機能するが2つ目は機能しない理由はありますか?
(作品)
(動作しません )
ありがとう!
hadoop - S3 からローカル マシンに大量のボリュームをダウンロードしますか? -s3distcp
現在の使用distcp
は遅く、1 時間分のログをコピーするのに最大 4:16 分かかりますが、私が作成したカスタム関数は 16 秒しかかかりません。Amazons3distcp
がログに関する例を提供していることを考えると、これを試してパフォーマンスをテストすることにしました。
これが可能であることはわかってdistcp
いますs3distcp
が、ローカル マシンで大量のデータ (潜在的に 100 GB 以上) を EMR を使用せずにローカル マシン上の hfs クラスターにコピーすることは可能ですか?
Amazon およびその後のチュートリアルと記事でs3distcp
は、EMR のステップとしての能力のみを参照しています。
hadoop - hadoop distcp raises メイン クラス org.apache.hadoop.mapreduce.v2.app.MRAppMaster が見つからないか、読み込めませんでした
データを s3 からローカル hdfs に移動するために distcp を実行しているときに、データをコピーするために起動された map reduce ジョブ中に次の例外が発生します。
可能なすべてのオンライン記事をチェックしました。私のyarn-site.xml
ファイルには
<property>
<name>yarn.application.classpath</name>
<value>
$HADOOP_CONF_DIR,
$HADOOP_COMMON_HOME/*,
$HADOOP_COMMON_HOME/lib/*,
$HADOOP_HDFS_HOME/*,
$HADOOP_HDFS_HOME/lib/*,
$HADOOP_MAPRED_HOME/*,
$HADOOP_MAPRED_HOME/lib/*,
$HADOOP_YARN_HOME/*,
$HADOOP_YARN_HOME/lib/*,
$HADOOP_HOME/share/hadoop/mapreduce/,
$HADOOP_HOME/share/hadoop/mapreduce/lib/
</value>
</property>
クラスターのすべてのノードについて、私がチェックしたところ、それらの変数が設定され、適切なフォルダーを指しています。実際に$HADOOP_HOME/share/hadoop/mapreduce/
それを指してhadoop-mapreduce-client-app-2.7.1.jar
いるのは、何か提案が含まれているjarですorg.apache.hadoop.mapreduce.v2.app.MRAppMaster
??
hadoop - distcp が「デバイスにスペースが残っていません」というエラーで失敗する
HDFS スナップショットを S3 バケットにコピーしていますが、以下のエラーが発生しています: 実行しているコマンドは次のとおりです: hadoop distcp /.snapshot/$SNAPSHOTNAME s3a://$ACCESSKEY:$SECRETKEY@$BUCKET/$SNAPSHOTNAME
ただし、デバイスには約 4 TB の十分なスペースがあります。助けてください。
hadoop - gzip された入力で s3distcp を使用できますか?
s3distcp を使用して、残念ながらgz
拡張子で終わらない小さな gzip ファイルをたくさんコンパイルしようとしています。そこ s3distcp にはoutputCodec
、出力を圧縮するために使用できる引数がありますが、対応するinputCodec
. Hadoop ストリーミング呼び出しで使用しようとして--jobconf
いますが、何もしていないようです (出力はまだ gzip されています)。私が使用しているコマンドは
何が起こっているのでしょうか?AWS EMR AMI-3.9 を実行しています。
java - distcp を使用して 1 つの HDFS データを別の HDFS の場所にコピーできない
ある HDFS データを別の HDFS の場所にコピーしようとしています。
「distcp」コマンドを使用して同じことを達成できます
しかし、Java Api を使用して同じことを試してみたいと思います。長い検索の後、1 つのコードが見つかり、実行されました。しかし、それは私のsrcファイルを宛先にコピーしませんでした。
私は何か間違ったことをしていますか?提案してください