問題タブ [s3distcp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
6551 参照

apache-spark - Spark で HDFS から読み取るときに「ファイルではない」例外を回避する方法

最初の EMR ステップで、S3DistCPを使用してファイルのツリーを S3 から HDFS にコピーします。hdfs dfs -ls -R hdfs:///data_dir次のような予想されるファイルを示します。

「ディレクトリ」はゼロバイトのファイルとしてリストされます。

次に、これらのファイルを読み取る必要があるスパーク ステップを実行します。したがって、読み込みコードは次のようになります。

ジョブが Java 例外で失敗する

私は (おそらく単純に)、spark が「ディレクトリ ツリー」を再帰的に下降し、データ ファイルをロードすると想定していました。S3 を指定すると、データが正常にロードされます。

HDFS を誤解していますか? 0 バイトのファイルを無視するように spark に指示できますか? S3DistCp を使用してツリーを平坦化できますか?

0 投票する
1 に答える
253 参照

hadoop - 秘密鍵ペアを使用した Hadoop distcp から S3a へ

Amazon S3 にアクセスするために ACCESS_ID_KEY と SECRET_ACCESS_KEY を非表示にするにはどうすればよいですか?

core-site.xml に追加することは知っていますが、別の解決策があるかもしれません。このアプローチでは、クラスターのすべてのユーザーが同じキーで distcp を実行するためです。クラスターユーザーごとにプロパティファイルに保存するなど、何らかの解決策があるのではないでしょうか?

ありがとう。

0 投票する
1 に答える
643 参照

amazon-web-services - s3distcp の AWS EMR でのログ記録を設定する

s3distcp他の hadoop コマンドを変更しWARNて、メッセージのみをログに記録するか、それよりも悪化させたいと考えていますINFO

AWS EMR クラスターのヘッドノードでこれを構成するにはどうすればよいですか?

非表示にしようとしている出力の例を次に示します。

0 投票する
1 に答える
1059 参照

hadoop - パラメータ解析エラー、Amazon aws emr

Linux コンソールでステップを作成しようとしています。

次のエラーをジャンプします

パラメータ '--steps' の解析中にエラーが発生しました: 予期: ','、受信: '+' for input

どうすれば修正できますか?

複数のファイルを S3 にアップロードするソリューションと、Amazon EMR の Hive が収集する S3DistCp を探しています。他に方法はありますか?

別の質問があります。現在、Hive に接続するための SSH トンネルを作成しています。PHP に接続するにはどうすればよいですか?


現時点では、「src Pattern」を削除してエラーを解決しましたが、別のエラーが発生しました。以下の画像を含めます

画像エラー

これが表示されるエラーです

どうも!!!

0 投票する
1 に答える
1586 参照

hadoop - exitCode、Amazon Emr Hadoop、S3DistCp でステップが失敗しました

「ステップ」を作成して、多くの小さなファイルを 1 つにまとめようとしているので、何日も分割できます。問題は、私が intetando を実行していて、私をさせないことです。

それを実行すると、私のコマンドでうまく機能します:

しかし、「group by」または「srcPattern」というコマンドをすでに入力した場合、何もしません。

Amazon EMR コンソールで「ステップ」を作成した後、常にエラーが発生します。ファイルを指定しました

指示:

エラー:

0 投票する
1 に答える
4118 参照

amazon-emr - EMR S3DistCp groupBy を適切に行うには?

aws .net sdk を使用して s3distcp ジョブを EMR に実行し、フォルダー内のすべてのファイルを --groupBy arg で連結しています。しかし、私が試した「groupBy」引数が何であれ、常に失敗するか、引数リストに --groupBy が指定されていない場合のように連結せずにファイルをコピーするだけです。

フォルダー内のファイルは、次のような名前の spark saveAsTextFiles です。

part-0000
part-0001
part-0002
...
...

0 投票する
2 に答える
1026 参照

loops - s3-dist-cp および hadoop distcp ジョブが EMR で無限にループする

s3 から HDFS に 193 GB のデータをコピーしようとしています。s3-dist-cp と hadoop distcp に対して次のコマンドを実行しています。

これらをマスターノードで実行し、転送量もチェックしています。約 1 時間かかり、それをコピーした後、すべてが消去され、クラスター内の 4 つのコア インスタンスでディスク容量が 99.8% と表示され、hadoop ジョブが永久に実行されます。コマンドを実行するとすぐに、

これはすぐに印刷され、1 時間にわたってデータをコピーします。それは最初からやり直します。

ここで何か不足していますか?どんな助けでも大歓迎です。

また、ジョブが失敗してループしているかどうかを確認するために、マスター ノードのログ ファイルはどこにありますか? ありがとう

0 投票する
1 に答える
657 参照

hadoop - ファイルリスト付きHadoop distcp

distcp を使用して、ファイルのリスト (> 1K ファイル) を hdfs にコピーしたいと考えています。既にファイルのリストをローカル ディレクトリに保存していますが、-f を使用してすべてのファイルをコピーできますか? はいの場合、ファイルリストファイルで維持する必要がある形式は何ですか? または他に良い方法はありますか?

0 投票する
2 に答える
14432 参照

amazon-s3 - S3DistCp を使用して S3 から EMR にファイルをコピーする

AWS EMR クラスターで S3DistCp を使用する方法を見つけるのに苦労しています。

s3distcp を EMR ステップとして追加する方法を示すいくつかの古い例でelastic-mapreduceは、もう使用されていないコマンドを使用しています。

s3-dist-cp他のいくつかの情報源は、現在の EMR クラスターには見られないコマンドを使用することを提案しています。公式ドキュメント (オンラインおよび EMR 開発者ガイド 2016 pdf) でさえ、次のような例を示しています。

しかし、パスlibにフォルダーがありません。/home/hadoopこのフォルダにいくつかの Hadoop ライブラリが見つかりました:が、どこからも/usr/lib/hadoop/lib見つけることができません。s3distcp

次に、いくつかの S3 バケットで利用可能なライブラリがいくつかあることがわかりました。たとえば、この質問から、次のパスを見つけました: s3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar。これらのパラメーターを使用して AWS インターフェースから実行中の EMR クラスターに新しいステップを追加すると、ステップが開始されましたが (以前の試行では開始されませんでした)、約 15 秒後に失敗したため、これは正しい方向へのステップのように見えました。

これにより、次のエラーが発生しました。

これは、S3 の場所 (エンドポイントと同じ) の非互換性と、us-east からの s3distcp スクリプトの場所が原因である可能性があると考えました。eu-west-1 に置き換えても、認証に関して同じエラーが発生します。同様のセットアップを使用して scala スクリプトを実行しました (「command-runner.jar」スクリプトを使用したカスタム jar タイプと最初の引数「spark-submit」を使用して、spark ジョブを実行しましたが、これは機能します。認証前。

S3 から EMR クラスターにファイルをコピーする最も簡単な方法は何ですか? AWS SDK (Go lang 用) を使用して追加の EMR ステップを追加するか、何らかの形で Scala spark スクリプト内に追加しますか? またはAWS EMRインターフェイスからですが、自動化する必要があるためCLIからではありません。

0 投票する
1 に答える
549 参照

hadoop - distcp コマンドを使用して s3 の場所にコピーします

以下のコマンドを使用して、HDFS から S3 にデータをコピーしています。

2015_09_19_03_30バケットは S3 に存在しません。/user/hive/data/test/test_folder=2015_09_19_03_30ディレクトリのデータを S3 バケットに正常にコピーしますが2015_09_19_03_30、同じコマンドを再度実行すると、別のバケットが S3 に作成されます。

両方のファイルが同じバケットにある必要があります。