問題タブ [amazon-emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Hadoop EMR でのログの確保
Amazon EMR で Hadoop ストリーミング ジョブを長時間実行しています (15 ノード、>1.5 時間)。ジョブは約 75% の完了レベルで失敗します。マッパーとリデューサーの両方に Python を使用しています。
次の最適化を行いました。
logging
また、モジュールでログエントリを発行した直後に次を追加しました。
無駄にエラーをキャッチしようとする: Hadoop ログ ファイルにエラーが表示されない :(
Hadoop でメッセージをログに記録し、ドロップしないようにするにはどうすればよいですか?
hadoop - Hive テーブルにパーティションを追加して、すべてのサブディレクトリをロードする
Amazon S3 に保存されているデータを処理するために (外部テーブルを使用して) ハイブを使用しています。
私のデータは次のように分割されています:
group/team/dt/
(たとえば、データファイルはパスに保存されている可能性がありますgroup=myGroup/team=myTeam/dt=20120603
)
複数のチーム (異なるグループ) のデータを処理したいと考えています。RCOVER PARTITIONS には時間がかかるため、グループとチームの値に基づいて複数のパーティションをハイブ テーブルに追加したいと考えています (つまり、そのチームで利用可能なすべての日付のグループとチームの負荷データが与えられた場合)。
私が探している機能は次のとおりです。
ありがとう!
amazon-web-services - EMRを実行し続ける方法
起動したEMRクラスターを実行し続け、完了するまで(たとえば、数日後)新しいジョブを送信し続けてからクラスターをシャットダウンすることはできますか、それともEC2で自分のクラスターを起動する必要がありますか?
hadoop - Amazon EMR: EMR インスタンスごとに固有の数のマッパーとリデューサーを設定する
M 個のコア インスタンスと N 個のタスク インスタンスを持つ Amazon EMR クラスターを実行しています。
私のジョブは 1 日に複数回実行され、時間に敏感なので、S3 との間のデータ転送のオーバーヘッドがないように、M コア インスタンスを 24 時間年中無休で稼働させています。
N 個のタスク ノードは、必要に応じて動的に起動および終了されます。
M 個のコア ノードは c1.mediums で、N 個のタスク ノードは m2.xlarge です。
インスタンスごとに mapred.tasktracker.map.tasks.maximum と mapred.tasktracker.reduce.tasks.maximum を設定する方法はありますか?
必要なコア ノードの場合: mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=1
少なくとも必要なタスク ノードの場合: mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=2
タスク トラッカーはコア ノードでも実行されることに注意してください。したがって、この構成は、インスタンスのサイズに応じてインスタンスごとに行う必要があると思います。
これは可能ですか?もしそうなら、どうすればこのタイプの構成をセットアップできますか?
amazon-web-services - HDFS に出力する EMR ジョブで distcp と s3distcp を使用する際の問題
AWS の EMR でジョブを実行し、出力を EMR ジョブの HDFS に保存しました。次に、distcp または s3distcp を介して結果を S3 にコピーしようとしていますが、以下で説明するように両方とも失敗しています。(注: EMR ジョブの出力を S3 に直接送信するだけではない理由は、完了したジョブの AWS EMR レデューサー出力はどこにありますか (S3 にあるはずですが、そこには何もない) で説明した (現在未解決の) 問題が原因です) )?
distcp の場合、次のように実行します (この投稿の推奨に従って):
エラー ログ (/mnt/var/log/hadoop/steps/8) に次のように表示されます。
s3distcp の場合、次を実行します ( s3distcp のドキュメントに従って):
エラー ログ (/mnt/var/log/hadoop/steps/9) には、次のように表示されます。
私が間違っていることはありますか?
更新: AWS フォーラムで、同様の distcp エラーに関する投稿に回答した人が、IAM ユーザーのユーザー権限について言及していますが、これが何を意味するのかわかりません(編集: IAM ユーザーを作成していないため、デフォルトを使用しています); うまくいけば、それが私の問題を特定するのに役立ちます。
更新 2: namenode ログ ファイルでこのエラーに気付きました (s3distcp の再実行時)。デフォルトの EMR 権限を調べて、それが私の問題かどうかを確認します。
更新 3: AWS サポートに連絡しましたが、問題は見られなかったので、エンジニアリング チームからの連絡を待っています。詳細がわかり次第投稿します
hadoop - S3でhadoopfs-getmergeを実行することは可能ですか?
S3でいくつかのファイルを書き込んでいるElasticMapReduceジョブがあり、すべてのファイルを連結して一意のテキストファイルを生成したいと思います。
現在、すべてのファイルを含むフォルダーをHDFS(hadoop fs copyFromLocal)に手動でコピーしてから、hadoopfs-getmergeおよびhadoopfscopyToLocalを実行してファイルを取得しています。
とにかくS3で直接hadoopfsを使用することはできますか?
dictionary - Amazon AWS でカスタム jar を実行する際に問題が発生する
Elastic Map-Reduce でカスタム jar を実行できません
jdk1.6.0_26、Hadoop 0.20.205 を使用しており、コンピューターで Eclipse を使用してコンパイルしていますが、すべて問題なく動作します。
たとえば、自分のコンピューターで次のコマンドを実行すると、hadoop jar MaxTemperature.jar input/temperature.txt output が成功します。
AWS s3n://chrishadoop/MaxTemperature.jar で jar を次のように指定しました。
引数を s3n://chrishadoop/input/temperature.txt s3n://chrishadoop/output として指定しました
マニフェストで指定したため、メインクラスを指定しませんでした
これが私が使用しているjarです。しばらく公開します
https://s3.amazonaws.com/chrishadoop/MaxTemperature.jar
ここに私が得ているエラーがあります
hadoop - Hadoop 実行時エラー
Hadoop を使用する学校のプロジェクトがあり、Amazon EMR でホストされます。
最初は単純な wordcount プログラムで理解しようとしていますが、Eclipse IDE で問題なく動作しています。
しかし、コマンドラインから実行しようとすると、以下のエラーが発生します。
スレッド「メイン」で例外 java.lang.NoClassDefFoundError: org/apache/hadoop/conf/Configuration at counter.WordCount.main(WordCount.java:56) 原因: java.lang.ClassNotFoundException: org.apache.hadoop.conf .java.security.AccessController.doPrivileged(Native Method) での java.net.URLClassLoader$1.run(URLClassLoader.java:202) での構成。
このエラーに対する提案と、hadoop と EMR を理解するためのリソースはありますか?
ありがとう、ミャット
json - JSONデータからHIVEテーブルを作成するにはどうすればよいですか?
いくつかのJSONデータ(ネストされた)からHiveテーブルを作成し、それに対してクエリを実行したいですか?これも可能ですか?
JSONファイルをS3にアップロードしてEMRインスタンスを起動するところまで到達しましたが、JSONファイルをHiveテーブルにするためにハイブコンソールに何を入力すればよいかわかりません。
誰かが私を始めるためのいくつかのサンプルコマンドを持っていますか、私はグーグルで役立つものを見つけることができません...