“elastic-map-reduce”の関連問題_Stack Overflow日本語サイト

0 投票する

2 に答える

8354 参照

java - Amazon の EMR を使用して CLI でカスタム jar を使用して mapred 構成と Java オプションを指定するにはどうすればよいですか?

カスタム jar を使用してストリーミングジョブを実行するときに、 mapred.task.timeout 、 mapred.min.split.sizeなどの mapreduce構成を指定する方法を知りたいです。

ruby や python などの外部スクリプト言語を使用して実行する場合、次の方法を使用してこれらの構成を指定できます。

ruby elastic-mapreduce -j --stream --step-name "mystream" --jobconf mapred.task.timeout=0 --jobconf mapred.min.split.size=52880 --mapper s3://somepath/mapper. rb --reducer s3:somepath/reducer.rb --input s3://somepath/input --output s3://somepath/output

次の方法を試しましたが、どれもうまくいきませんでした。

ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -m,mapred.min.split .size=52880 -m,mapred.task.timeout=0
ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -jobconf,mapred.min.split .size=52880 -jobconf,mapred.task.timeout=0

また、EMR でカスタム jar を使用して Java オプションをストリーミングジョブに渡す方法も知りたいです。Hadoop でローカルに実行する場合、次のように渡すことができます。

bin/hadoop jar job.jar input_path output_path -D< some_java_parameter >=< some_value >

2012-02-14T20:45:45.823

0 投票する

1 に答える

2063 参照

amazon-ec2 - EC2スポットインスタンス（Ruby CLI）を使用するようにAmazon EMRストリーミングジョブを設定するにはどうすればよいですか？

Rubyコマンドラインインターフェイスを使用してAmazonElasticMapReduce（Amazon EMR）でストリーミングジョブを作成する場合、EC2スポットインスタンス（マスターを除く）のみを使用するように指定するにはどうすればよいですか？以下のコマンドは機能していますが、少なくとも1つのコアインスタンスを使用するように「強制」されています...

ありがとう

amazon-ec2 amazon-web-services elastic-map-reduce amazon-emr

2012-02-15T10:06:06.697

0 投票する

4 に答える

4060 参照

apache-pig - Elastic MapReduce の Pig で Python UDF をどのように使用しますか?

AWS Elastic MapReduce クラスターの Pig で Python UDF を利用したいのですが、うまく動作させることができません。何を試しても、豚のジョブは失敗し、次の例外がログに記録されます。

Elastic MapReduce で Pig 用の Python UDF を使用するには、何をする必要がありますか?

apache-pig elastic-map-reduce

2012-02-15T20:06:30.330

0 投票する

3 に答える

31117 参照

amazon-s3 - HiveテーブルをS3バケットにエクスポートする

Elastic MapReduceインタラクティブセッションを介してHiveテーブルを作成し、次のようにCSVファイルからデータを入力しました。

ここで、HiveテーブルをS3バケットに保存して、MapReduceインスタンスを終了するとテーブルが保持されるようにします。

誰かがこれを行う方法を知っていますか？

amazon-s3 hive elastic-map-reduce emr

2012-02-28T20:48:04.333

0 投票する

1 に答える

1235 参照

java - mapreduce ジョブ内の API 呼び出し

map reduce ジョブの実行中に外部 API を呼び出すことの不都合についてお聞きしたいと思います。欠点はどれですか？

いくつかの例: マッパー内で住所をジオコーディングする必要があり、Google マップ API を呼び出すか、アイテムの関連要素を取得するために外部 DB を呼び出す場合など。

java api hadoop mapreduce elastic-map-reduce

2012-03-05T10:38:14.657

0 投票する

2 に答える

956 参照

mapreduce - Amazon mapreduce を使用してフリーベースクワッドダンプを解析する方法

フリーベースから映画情報を抽出しようとしています。映画の名前、監督と俳優の名前と ID だけが必要です。

ディレクター ID への参照がなく、ディレクター名だけであるため、freebases トピックダンプを使用してこれを行うのは難しいことがわかりました。

このタスクの正しいアプローチは何ですか? Amazonsクラウドを使用してクワッドダンプ全体を解析する必要がありますか? それとも、いくつかのesy方法がありますか？

mapreduce freebase elastic-map-reduce

2012-03-07T14:11:37.253

0 投票する

3 に答える

3306 参照

hadoop - Windows から amazon のエラスティック mapreduce (emr) クラスターで mapreduce ジョブを実行する方法は?

Amazon の EMR で Java Map/Reduce (M/R) ジョブを実行する方法を学習しようとしています。私がフォローしているドキュメントはこちらhttp://aws.amazon.com/articles/3938です。私はWindows 7コンピューターを使用しています。

このコマンドを実行しようとすると、ヘルプ情報が表示されます。

もちろん、私は Windows マシンを使用しているので、実際にこのコマンドを入力します。理由はわかりませんが、この特定のコマンドについては、Windows バージョンがありませんでした (すべてのコマンドはペアで表示され、1 つは *nix 用で、もう 1 つは Windows 用です)。

私の質問は、コマンドラインインターフェイス (Windows 上) を使用して、Windows から Amazon の EMR にジョブを送信/実行する方法です。オンラインで検索してみましたが、野生の場所に連れて行かれます。どんな助けでも大歓迎です。

ありがとう。

hadoop mapreduce elastic-map-reduce amazon-emr

2012-03-08T16:55:31.023

0 投票する

3 に答える

9736 参照

python - ブロークンパイプエラーにより、AWS での Elastic MapReduce ジョブのストリーミングが失敗する

次のようにすると、すべてがローカルで正常に動作します。

ただし、AWS Elastic Mapreduce でストリーミング MapReduce ジョブを実行すると、ジョブが正常に完了しません。途中まで実行されmapper.pyます（途中で書いたので、これを知ってstderrいます）。マッパーは「Broken Pipe」エラーによって中断されます。これは、失敗した後にタスク試行の syslog から取得できます。

ここにありmapper.pyます。デバッグ情報を提供するために stderr に書き込むことに注意してください。

これは、mapper.py が実行されたときにタスク試行の stderr に表示されるものです。

基本的に、ループは 3 回実行され、Python がエラーをスローすることなく突然停止します。(注:何千行も出力されているはずです)。キャッチされなかった例外も stderr に表示されるはずです。

MapReduce は私のローカルコンピューターで完全に正常に動作するため、これは、mapper.py から印刷している出力を Hadoop が処理する方法に問題があると推測されます。しかし、私は問題が何であるかについては無知です。

python hadoop amazon-web-services mapreduce elastic-map-reduce

2012-03-26T23:15:07.553

0 投票する

2 に答える

1678 参照

php - AWS SDK for PHPからHadoopストリーミングの引数を渡すにはどうすればよいですか？

AWS SDKforPHPを介してジョブを追加しようとしています。APIを介してクラスターを正常に開始し、新しいジョブフローを開始することはできますが、Hadoopストリーミングステップを作成しようとするとエラーが発生します。

これが私のコードです：

次のようなエラーが発生します：無効なストリーミングパラメータ'-input s3：// .... -output s3：//..... -mapper s3：//....../ mapper.php -reducer s3：//...../ reducer.php "

したがって、HadoopストリーミングJARに引数を渡す方法が明確ではありませんか？

AWS SDK for PHPの公式ドキュメントには、例やドキュメントは含まれていません。

おそらく関連する未回答のスレッド：

awsphpsdkを使用してハイブスクリプトにパラメーターを渡します

php amazon-web-services elastic-map-reduce hadoop-streaming amazon-emr

2012-04-02T13:02:02.243

0 投票する

2 に答える

5434 参照

hadoop - Amazon Elastic MapReduce Bootstrap アクションが機能しない

ジョブのヒープサイズを増やすために、次のブートストラップアクションの組み合わせを試しましたが、どれも機能していないようです。

正しい構文は何ですか?

hadoop amazon-web-services mapreduce elastic-map-reduce amazon-emr

2012-04-05T07:38:52.260

問題タブ [elastic-map-reduce]

Reference