問題タブ [elastic-map-reduce]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Amazon の EMR を使用して CLI でカスタム jar を使用して mapred 構成と Java オプションを指定するにはどうすればよいですか?
カスタム jar を使用してストリーミング ジョブを実行するときに、 mapred.task.timeout 、 mapred.min.split.sizeなどの mapreduce構成を指定する方法を知りたいです。
ruby や python などの外部スクリプト言語を使用して実行する場合、次の方法を使用してこれらの構成を指定できます。
ruby elastic-mapreduce -j --stream --step-name "mystream" --jobconf mapred.task.timeout=0 --jobconf mapred.min.split.size=52880 --mapper s3://somepath/mapper. rb --reducer s3:somepath/reducer.rb --input s3://somepath/input --output s3://somepath/output
次の方法を試しましたが、どれもうまくいきませんでした。
ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -m,mapred.min.split .size=52880 -m,mapred.task.timeout=0
ruby elastic-mapreduce --jobflow --jar s3://somepath/job.jar --arg s3://somepath/input --arg s3://somepath/output --args -jobconf,mapred.min.split .size=52880 -jobconf,mapred.task.timeout=0
また、EMR でカスタム jar を使用して Java オプションをストリーミング ジョブに渡す方法も知りたいです。Hadoop でローカルに実行する場合、次のように渡すことができます。
bin/hadoop jar job.jar input_path output_path -D< some_java_parameter >=< some_value >
amazon-ec2 - EC2スポットインスタンス(Ruby CLI)を使用するようにAmazon EMRストリーミングジョブを設定するにはどうすればよいですか?
Rubyコマンドラインインターフェイスを使用してAmazonElasticMapReduce(Amazon EMR)でストリーミングジョブを作成する場合、EC2スポットインスタンス(マスターを除く)のみを使用するように指定するにはどうすればよいですか?以下のコマンドは機能していますが、少なくとも1つのコアインスタンスを使用するように「強制」されています...
ありがとう
apache-pig - Elastic MapReduce の Pig で Python UDF をどのように使用しますか?
AWS Elastic MapReduce クラスターの Pig で Python UDF を利用したいのですが、うまく動作させることができません。何を試しても、豚のジョブは失敗し、次の例外がログに記録されます。
Elastic MapReduce で Pig 用の Python UDF を使用するには、何をする必要がありますか?
amazon-s3 - HiveテーブルをS3バケットにエクスポートする
Elastic MapReduceインタラクティブセッションを介してHiveテーブルを作成し、次のようにCSVファイルからデータを入力しました。
ここで、HiveテーブルをS3バケットに保存して、MapReduceインスタンスを終了するとテーブルが保持されるようにします。
誰かがこれを行う方法を知っていますか?
java - mapreduce ジョブ内の API 呼び出し
map reduce ジョブの実行中に外部 API を呼び出すことの不都合についてお聞きしたいと思います。欠点はどれですか?
いくつかの例: マッパー内で住所をジオコーディングする必要があり、Google マップ API を呼び出すか、アイテムの関連要素を取得するために外部 DB を呼び出す場合など。
mapreduce - Amazon mapreduce を使用してフリーベース クワッド ダンプを解析する方法
フリーベースから映画情報を抽出しようとしています。映画の名前、監督と俳優の名前と ID だけが必要です。
ディレクター ID への参照がなく、ディレクター名だけであるため、freebases トピック ダンプを使用してこれを行うのは難しいことがわかりました。
このタスクの正しいアプローチは何ですか? Amazonsクラウドを使用してクワッドダンプ全体を解析する必要がありますか? それとも、いくつかのesy方法がありますか?
hadoop - Windows から amazon のエラスティック mapreduce (emr) クラスターで mapreduce ジョブを実行する方法は?
Amazon の EMR で Java Map/Reduce (M/R) ジョブを実行する方法を学習しようとしています。私がフォローしているドキュメントはこちらhttp://aws.amazon.com/articles/3938です。私はWindows 7コンピューターを使用しています。
このコマンドを実行しようとすると、ヘルプ情報が表示されます。
もちろん、私は Windows マシンを使用しているので、実際にこのコマンドを入力します。理由はわかりませんが、この特定のコマンドについては、Windows バージョンがありませんでした (すべてのコマンドはペアで表示され、1 つは *nix 用で、もう 1 つは Windows 用です)。
私の質問は、コマンド ライン インターフェイス (Windows 上) を使用して、Windows から Amazon の EMR にジョブを送信/実行する方法です。オンラインで検索してみましたが、野生の場所に連れて行かれます。どんな助けでも大歓迎です。
ありがとう。
python - ブロークン パイプ エラーにより、AWS での Elastic MapReduce ジョブのストリーミングが失敗する
次のようにすると、すべてがローカルで正常に動作します。
ただし、AWS Elastic Mapreduce でストリーミング MapReduce ジョブを実行すると、ジョブが正常に完了しません。途中まで実行されmapper.py
ます(途中で書いたので、これを知ってstderr
います)。マッパーは「Broken Pipe」エラーによって中断されます。これは、失敗した後にタスク試行の syslog から取得できます。
ここにありmapper.py
ます。デバッグ情報を提供するために stderr に書き込むことに注意してください。
これは、mapper.py が実行されたときにタスク試行の stderr に表示されるものです。
基本的に、ループは 3 回実行され、Python がエラーをスローすることなく突然停止します。(注:何千行も出力されているはずです)。キャッチされなかった例外も stderr に表示されるはずです。
MapReduce は私のローカル コンピューターで完全に正常に動作するため、これは、mapper.py から印刷している出力を Hadoop が処理する方法に問題があると推測されます。しかし、私は問題が何であるかについては無知です。
php - AWS SDK for PHPからHadoopストリーミングの引数を渡すにはどうすればよいですか?
AWS SDKforPHPを介してジョブを追加しようとしています。APIを介してクラスターを正常に開始し、新しいジョブフローを開始することはできますが、Hadoopストリーミングステップを作成しようとするとエラーが発生します。
これが私のコードです:
次のようなエラーが発生します:無効なストリーミングパラメータ'-input s3:// .... -output s3://..... -mapper s3://....../ mapper.php -reducer s3://...../ reducer.php "
したがって、HadoopストリーミングJARに引数を渡す方法が明確ではありませんか?
AWS SDK for PHPの公式ドキュメントには、例やドキュメントは含まれていません。
おそらく関連する未回答のスレッド:
hadoop - Amazon Elastic MapReduce Bootstrap アクションが機能しない
ジョブのヒープ サイズを増やすために、次のブートストラップ アクションの組み合わせを試しましたが、どれも機能していないようです。
正しい構文は何ですか?