“elastic-map-reduce”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

4629 参照

python - Amazon Elastic MapReduce - Python map および reduce コードのフォーマットまたは例

Hadoop と同じかもしれませんが、マップを作成する形式や例を見つけることができず、マップの例の横に Python コードを減らすことができませんでした: http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/

しかし、削減コードの例が見つかりませんでした。

Hadoopと同じですか？フォーマットは何ですか？どこかに例はありますか？

2011-06-29T20:01:52.620

0 投票する

1 に答える

2813 参照

r - ストリーミングコマンドが失敗しました! Elastic Map Reduce/S3 および R 使用時のエラー

EC2/S3/EMR/R を使用して何かを正常に実行することを期待して、この例に従っています。 https://gist.github.com/406824

ストリーミングステップでジョブが失敗します。エラーログは次のとおりです。

コントローラ：

標準エラー:

標準出力:

シスログ:

r amazon-s3 amazon-ec2 hadoop elastic-map-reduce

2011-07-21T20:20:48.527

0 投票する

3 に答える

2877 参照

amazon-ec2 - Amazon Elastic MapReduce インスタンスを再利用する

を使用して単純な Map/Reduce タスクを試してみましたがAmazon Elastic MapReduce、タスクを完了するのにわずか 3 分しかかかりませんでした。同じインスタンスを再利用して別のタスクを実行することは可能ですか?

インスタンスを 3 分間使用しただけですが、Amazon はに課金し1 hrます。残りの 57 分間を使用して、他のいくつかのタスクを実行したいと考えています。

amazon-ec2 mapreduce elastic-map-reduce

2011-07-30T00:27:20.930

0 投票する

1 に答える

727 参照

amazon-web-services - Amazon の Elastic Map Reduce の Ruby クライアントを使用して、複数の入力を持つジョブを作成した人はいますか?

UI Amazon のフレームワークでは、複数の --input 行を指定することで、複数の入力を持つジョブを作成できます。例えば：

-input s3n://something -input s3n://something-else

同様に、Ruby EMR クライアントはこれまで非常に役に立ちました: http://aws.amazon.com/developertools/2264

ただし、複数の入力を必要とする夜間ジョブのスクリプトを作成しようとしていますが、これを行う方法が見つからないようです。複数の -input パラメーターを渡すことができず、 --arg または --args を使用すると、作成されるジョブに -input 行が含まれません。まるでそれを剥ぎ取っているかのようです。

このツールをこの目的で使用した人はいますか?

amazon-web-services amazon-emr elastic-map-reduce

2011-09-02T01:22:41.843

0 投票する

1 に答える

7468 参照

java - java.lang.RuntimeException: Elastic MapReduce で Jar ジョブを実行しようとしたときの java.lang.ClassNotFoundException

次のエラーを修正するには、何を変更する必要がありますか:

Elastic Mapreduce でジョブを開始しようとしていますが、毎回クラッシュして次のメッセージが表示されます。

クラスNewMaxTemperatureMapperが宣言されており、私が確認したところ、s3 にある jar に含まれています。すべてのアプリクラスのコードは次のとおりです。

NewMaxTemperature.java:

NewMaxTemperatureReducer.java:

NewMaxTemperatureMapper.java:

ここで利用可能なこのクラッシュを取得している jar ファイルを作成しました:ダウンロード jar

java hadoop mapreduce amazon-emr elastic-map-reduce

2011-09-10T18:15:52.257

0 投票する

1 に答える

89 参照

java - Hadoopでセットメンバーシップテストを行う最良の方法は何ですか?

Hadoop を使用して、アプリケーションの一連の分析レコードを処理しています。ストリームに表示されるイベントに基づいてユーザーを分類し、後の段階でストリームを再度反復するときにその情報を使用したいと考えています。たとえば、アプリをアクティブ化していないすべてのユーザーに関するデータを生成したいとします。

第 1 ラウンドの削減の一環として、ストリームを 1 回反復することで、アクティブ化されない人を特定できます。

問題は、「ユーザー X がアクティベートしなかった」というデータをどこに置いて、次に第 2 ラウンドのマッパーでストリームを反復処理するときにその事実を調べられるようにするかということです。いくつかのアイデアがありますが、どれが正しい Hadoop の方法かわかりません。

ユーザーのリストを含む第 1 ラウンドのレデューサーからサイドファイルを出力し、第 2 ラウンドでそれを読み込みます -- ファイル全体をメモリに読み込まないようにするにはどうすればよいですか、複数のフロントエンドレデューサーから複数のサイドファイルを処理するにはどうすればよいですか（サイドファイルをソート/結合する良い方法はありますか）？
ユーザーのすべてのイベントをリデューサーのメモリにバッファリングして、ディスクに出力する前に「アクティブ化されていない」というタグを付けることができるようにします-少し気分が悪くなります。

それらの1つは「正しい方法」ですか、私が見逃している別の方法はありますか?

AWS Elastic MapReduce を使用しています。

java hadoop amazon-web-services elastic-map-reduce

2011-09-16T23:43:02.393

0 投票する

1 に答える

3115 参照

java - 1つのマッパージョブに割り当てるメモリの量をHadoopに指示するにはどうすればよいですか？

Elastic MapReduceジョブを作成し、そのパフォーマンスを最適化しようとしています。

現時点では、インスタンスあたりのマッパーの数を増やしようとしています。私はmapred.tasktracker.map.tasks.maximum=Xを介してこれを行っています

小さなインスタンスごとにXを2以上に設定しようとするたびに、初期化が失敗し、そこから、hadoopがマップタスクごとに800mのメモリを割り当てたと結論付けます。私にはそれは過度に思えます。トップス400mにしたいのですが。

各マップタスクに使用するメモリを減らすようにHadoopに指示するにはどうすればよいですか？

java hadoop mapreduce amazon elastic-map-reduce

2011-09-26T16:14:45.120

0 投票する

3 に答える

801 参照

amazon-web-services - AWS での Elastic MapReduce JobFlow への SSH 接続エラー

EMR で自分の JobFlow に接続するためのチュートリアルの指示に従うときは、次のように入力します。

このエラーが発生します：

私は既に他のelastic-mapreduceコマンドを実行してフローなどを作成することができます. 、最初に設定を行うために SSH 接続する必要があります!)

amazon-web-services elastic-map-reduce

2011-10-04T00:35:46.553

0 投票する

1 に答える

1068 参照

hadoop - SSH 内から Hadoop を直接呼び出してジョブを開始する

私は、elastic-mapreduce Ruby ライブラリを使用してジョブフローを開始することができました。これで、ジョブが終了した後もまだ「生きている」インスタンスがあります。SSH を使用してログインし、別のジョブを開始したいのですが、hadoop が入力ファイルを見つけられないため、さまざまな試行が失敗しました。入力ファイルをローカルと S3 に保存しようとしました。

SSH セッション内から直接新しい Hadoop ジョブを作成するにはどうすればよいですか?

私の試みからのエラー:

(SFTP を使用してファイルをアップロードして作成したローカルファイルストレージを使用する最初の試み)

(s3 を使用した 2 回目の試行):

hadoop amazon-web-services elastic-map-reduce

2011-10-04T23:07:56.733

0 投票する

2 に答える

2306 参照

hadoop - Elastic MapReduce HDFS にデータを出し入れする

HDFS 内で特定のレイアウトを必要とする Hadoop プログラムを作成しました。その後、HDFS からファイルを取得する必要があります。これは私の単一ノードの Hadoop セットアップで動作し、Elastic MapReduce 内の数十のノードで動作することを熱望しています。

私がやっていることは次のようなものです：

これは非同期ですが、ジョブが完了したら、これを行うことができます

したがって、この種の機能は機能しますが、扱いにくく、私が望むものではありません。これを行うためのよりクリーンな方法はありますか？

ありがとう！

hadoop elastic-map-reduce

2011-10-09T05:42:53.273

問題タブ [elastic-map-reduce]

Reference