問題タブ [elastic-map-reduce]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Amazon Elastic MapReduce - Python map および reduce コードのフォーマットまたは例
Hadoop と同じかもしれませんが、マップを作成する形式や例を見つけることができず、マップの例の横に Python コードを減らすことができませんでした: http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/
しかし、削減コードの例が見つかりませんでした。
Hadoopと同じですか?フォーマットは何ですか?どこかに例はありますか?
r - ストリーミング コマンドが失敗しました! Elastic Map Reduce/S3 および R 使用時のエラー
EC2/S3/EMR/R を使用して何かを正常に実行することを期待して、この例に従っています。 https://gist.github.com/406824
ストリーミング ステップでジョブが失敗します。エラーログは次のとおりです。
コントローラ:
標準エラー:
標準出力:
シスログ:
amazon-ec2 - Amazon Elastic MapReduce インスタンスを再利用する
を使用して単純な Map/Reduce タスクを試してみましたがAmazon Elastic MapReduce
、タスクを完了するのにわずか 3 分しかかかりませんでした。同じインスタンスを再利用して別のタスクを実行することは可能ですか?
インスタンスを 3 分間使用しただけですが、Amazon は に課金し1 hr
ます。残りの 57 分間を使用して、他のいくつかのタスクを実行したいと考えています。
amazon-web-services - Amazon の Elastic Map Reduce の Ruby クライアントを使用して、複数の入力を持つジョブを作成した人はいますか?
UI Amazon のフレームワークでは、複数の --input 行を指定することで、複数の入力を持つジョブを作成できます。例えば:
-input s3n://something -input s3n://something-else
同様に、Ruby EMR クライアントはこれまで非常に役に立ちました: http://aws.amazon.com/developertools/2264
ただし、複数の入力を必要とする夜間ジョブのスクリプトを作成しようとしていますが、これを行う方法が見つからないようです。複数の -input パラメーターを渡すことができず、 --arg または --args を使用すると、作成されるジョブに -input 行が含まれません。まるでそれを剥ぎ取っているかのようです。
このツールをこの目的で使用した人はいますか?
java - java.lang.RuntimeException: Elastic MapReduce で Jar ジョブを実行しようとしたときの java.lang.ClassNotFoundException
次のエラーを修正するには、何を変更する必要がありますか:
Elastic Mapreduce でジョブを開始しようとしていますが、毎回クラッシュして次のメッセージが表示されます。
クラスNewMaxTemperatureMapperが宣言されており、私が確認したところ、s3 にある jar に含まれています。すべてのアプリ クラスのコードは次のとおりです。
NewMaxTemperature.java:
NewMaxTemperatureReducer.java:
NewMaxTemperatureMapper.java:
ここで利用可能なこのクラッシュを取得している jar ファイルを作成しました:ダウンロード jar
java - Hadoopでセットメンバーシップテストを行う最良の方法は何ですか?
Hadoop を使用して、アプリケーションの一連の分析レコードを処理しています。ストリームに表示されるイベントに基づいてユーザーを分類し、後の段階でストリームを再度反復するときにその情報を使用したいと考えています。たとえば、アプリをアクティブ化していないすべてのユーザーに関するデータを生成したいとします。
第 1 ラウンドの削減の一環として、ストリームを 1 回反復することで、アクティブ化されない人を特定できます。
問題は、「ユーザー X がアクティベートしなかった」というデータをどこに置いて、次に第 2 ラウンドのマッパーでストリームを反復処理するときにその事実を調べられるようにするかということです。いくつかのアイデアがありますが、どれが正しい Hadoop の方法かわかりません。
- ユーザーのリストを含む第 1 ラウンドのレデューサーからサイド ファイルを出力し、第 2 ラウンドでそれを読み込みます -- ファイル全体をメモリに読み込まないようにするにはどうすればよいですか、複数のフロントエンド レデューサーから複数のサイド ファイルを処理するにはどうすればよいですか(サイドファイルをソート/結合する良い方法はありますか)?
- ユーザーのすべてのイベントをリデューサーのメモリにバッファリングして、ディスクに出力する前に「アクティブ化されていない」というタグを付けることができるようにします-少し気分が悪くなります。
それらの1つは「正しい方法」ですか、私が見逃している別の方法はありますか?
AWS Elastic MapReduce を使用しています。
java - 1つのマッパージョブに割り当てるメモリの量をHadoopに指示するにはどうすればよいですか?
Elastic MapReduceジョブを作成し、そのパフォーマンスを最適化しようとしています。
現時点では、インスタンスあたりのマッパーの数を増やしようとしています。私はmapred.tasktracker.map.tasks.maximum=Xを介してこれを行っています
小さなインスタンスごとにXを2以上に設定しようとするたびに、初期化が失敗し、そこから、hadoopがマップタスクごとに800mのメモリを割り当てたと結論付けます。私にはそれは過度に思えます。トップス400mにしたいのですが。
各マップタスクに使用するメモリを減らすようにHadoopに指示するにはどうすればよいですか?
amazon-web-services - AWS での Elastic MapReduce JobFlow への SSH 接続エラー
EMR で自分の JobFlow に接続するためのチュートリアルの指示に従うときは、次のように入力します。
このエラーが発生します:
私は既に他のelastic-mapreduceコマンドを実行してフローなどを作成することができます. 、最初に設定を行うために SSH 接続する必要があります!)
hadoop - SSH 内から Hadoop を直接呼び出してジョブを開始する
私は、elastic-mapreduce Ruby ライブラリを使用してジョブ フローを開始することができました。これで、ジョブが終了した後もまだ「生きている」インスタンスがあります。SSH を使用してログインし、別のジョブを開始したいのですが、hadoop が入力ファイルを見つけられないため、さまざまな試行が失敗しました。入力ファイルをローカルと S3 に保存しようとしました。
SSH セッション内から直接新しい Hadoop ジョブを作成するにはどうすればよいですか?
私の試みからのエラー:
(SFTP を使用してファイルをアップロードして作成したローカル ファイル ストレージを使用する最初の試み)
(s3 を使用した 2 回目の試行):
hadoop - Elastic MapReduce HDFS にデータを出し入れする
HDFS 内で特定のレイアウトを必要とする Hadoop プログラムを作成しました。その後、HDFS からファイルを取得する必要があります。これは私の単一ノードの Hadoop セットアップで動作し、Elastic MapReduce 内の数十のノードで動作することを熱望しています。
私がやっていることは次のようなものです:
これは非同期ですが、ジョブが完了したら、これを行うことができます
したがって、この種の機能は機能しますが、扱いにくく、私が望むものではありません。これを行うためのよりクリーンな方法はありますか?
ありがとう!