“amazon-emr”の関連問題_Stack Overflow日本語サイト

0 投票する

3 に答える

2211 参照

hadoop - レデューサーごとに 1 つのキーを確保する Hadoop ストリーミング

データの処理中に出力を3つの異なるタイプに分類するマッパーがあります(タイプは出力キーです)。私の目標は、レデューサーを介して 3 つの異なる csv ファイルを作成し、それぞれにヘッダー行を持つ 1 つのキーのすべてのデータを作成することです。

キー値は変更可能で、テキスト文字列です。

さて、理想的には、3 つの異なるレデューサーが必要であり、各レデューサーは値のリスト全体で 1 つのキーのみを取得します。

ただし、キーが特定のレデューサーにマップされないため、これは機能しないようです。

他の場所でのこれに対する答えは、必要な各キー値を特定のレデューサーにマップするカスタムパーティショナークラスを作成することでした。Pythonでストリーミングを使用する必要があり、ジョブにカスタムストリーミングjarを含めることができないため、これはオプションではないように思われることを除いて、これは素晴らしいことです。

Hadoop のドキュメントで、セカンダリソートを有効にできる代替のパーティショナークラスがあることがわかりますが、デフォルトまたはキーフィールドベースのパーティショナーのいずれかを使用して、各キーが確実に終了するようにすることが可能であることはすぐにはわかりません。Java クラスを作成したり、カスタムストリーミング jar を使用したりせずに、独自のレデューサーを使用します。

どんな提案でも大歓迎です。

例:

マッパー出力:

csv2\tfieldA,fieldB,fieldC csv1\tfield1,field2,field3,field4 csv3\tfieldRed,fieldGreen ...

問題は、3つのレデューサーがある場合、次のようなキー配布になることです:

1 つのレデューサーは 2 つの異なるキータイプを取得し、1 つのレデューサーはデータをまったく送信しません。これは、hash(key csv1) mod 3 と hash(key csv2) mod 3 が同じ値になるためです。

2011-09-15T13:46:44.970

0 投票する

1 に答える

1267 参照

amazon-s3 - AmazonEMRでのストリーミングジョブフローに関する質問

Amazon EC2 + S3 + RDS + EMRを使用して、非常に複雑なデータ処理システムを作成する必要があります。いくつかの一般的な質問があります。

Rを使用する必要があり、次にストリーミングジョブフローを使用する必要があります。つまり、Hiveの機能が失われ、EMRジョブの上でHiveクエリを実行してそのデータを処理できなくなるということですか？
複数のジョブフローを実行して操作することはできますか？
依存ジョブを使用するにはどうすればよいですか？
完了したら、ジョブを再実行できますか？一度は計算したくない、データに応じて進化させたい。
変数をジョブに渡すことはできますか？
これを自動化する正しい方法は何ですか？

amazon-s3 hadoop hive amazon-emr

2011-10-17T14:25:39.263

0 投票する

2 に答える

4391 参照

amazon-s3 - ハイブクエリの結果が複数のファイルに分割されるのはなぜですか

Hive クエリを実行するように Amazon ElasticMapreduce ジョブを設定しています

ジョブが終了すると、S3 に設定されている出力場所にはtask_201110280815_0001_r_00000x、x が 0 から 4 までのパターンを持つ 5 つのファイルが含まれます。ファイルは小さく、それぞれ 35 KB です。

結果を単一のファイルに保存するようにハイブに指示することは可能ですか?

amazon-s3 hadoop hive amazon-emr

2011-10-28T08:51:12.133

0 投票する

3 に答える

2172 参照

python - ボト：完了/失敗後にEMRジョブフローを実行し続ける方法は？

完了後にジョブフローを終了せずに、botoを使用して待機中のAmazon EMRジョブフローにステップを追加するにはどうすればよいですか？

AmazonのElasticMapReduceでインタラクティブなジョブフローを作成し、いくつかのテーブルをロードしました。Botoを使用してジョブフローに新しいステップを渡すと、ジョブemr_conn.add_jobflow_steps(...)フローは、終了または失敗した後に終了します。

run_jobflowパラメータを使用してbotoでジョブフローを開始できることはわかってkeep_aliveいますが、すでに実行されているフローを操作したいと思います。

python boto amazon-emr

2011-10-31T22:33:16.290

0 投票する

1 に答える

2843 参照

python - EC2 で mapreduce ジョブを実行するときにファイル名を取得するには?

私は伸縮性のある mapreduce を学んでおり、Amazon チュートリアルセクション (以下に示すコード) で提供されている Word Splitter の例から始めました。この例では、提供されたすべての入力ドキュメントのすべての単語の単語数を生成します。

しかし、ファイル名ごとに Word Counts の出力を取得したいと考えています。つまり、特定の 1 つのドキュメント内の単語数です。単語カウントの python コードは stdin から入力を取得するため、どの入力行がどのドキュメントからのものかをどのように判断すればよいですか?

ありがとう。

python amazon-ec2 mapreduce amazon-emr

2011-11-10T03:37:57.190

0 投票する

3 に答える

10580 参照

hive - Hive HQL構文を検証しますか？

基本的な構文ミスなどのエラーについてHiveQLステートメントを検証するプログラム的な方法はありますか？デバッグ時間を節約するために、ステートメントをElasticMapReduceに送信する前にチェックしたいと思います。

hive amazon-emr

2011-11-16T17:13:58.883

0 投票する

1 に答える

696 参照

hadoop - AmazonMapReduceでコンパイルされたバイナリを呼び出す

AmazonElasticMapReduceでデータ分析を行おうとしています。マッパーステップは、「。/formatData」と呼ばれるコンパイル済みC++バイナリへの呼び出しを含むPythonスクリプトです。例えば：

Amazon EMRでこのようなバイナリ実行可能ファイルを呼び出すことはできますか？もしそうなら、バイナリをどこに保存しますか（S3で？）、どのプラットフォームでコンパイルする必要があり、マッパースクリプトがバイナリにアクセスできるようにする方法（理想的には現在の作業ディレクトリにあります）。

ありがとう！

hadoop amazon-ec2 mapreduce elastic-map-reduce amazon-emr

2012-02-07T00:53:52.867

0 投票する

1 に答える

691 参照

amazon-s3 - EMR map/reduce タスクから直接 S3 にアクセスする

EMR マップタスクから s3 バケットに直接書き込む方法を見つけようとしています。インターネットからデータを取得してs3に保存するpythonストリーミングジョブを実行したいと思います-ジョブを減らすためにデータを戻さずに。誰でもそれで私を助けることができますか？

amazon-s3 amazon-ec2 amazon-web-services amazon-emr

2012-02-13T15:11:07.367

0 投票する

1 に答える

2063 参照

amazon-ec2 - EC2スポットインスタンス（Ruby CLI）を使用するようにAmazon EMRストリーミングジョブを設定するにはどうすればよいですか？

Rubyコマンドラインインターフェイスを使用してAmazonElasticMapReduce（Amazon EMR）でストリーミングジョブを作成する場合、EC2スポットインスタンス（マスターを除く）のみを使用するように指定するにはどうすればよいですか？以下のコマンドは機能していますが、少なくとも1つのコアインスタンスを使用するように「強制」されています...

ありがとう

amazon-ec2 amazon-web-services elastic-map-reduce amazon-emr

2012-02-15T10:06:06.697

0 投票する

3 に答える

3306 参照

hadoop - Windows から amazon のエラスティック mapreduce (emr) クラスターで mapreduce ジョブを実行する方法は?

Amazon の EMR で Java Map/Reduce (M/R) ジョブを実行する方法を学習しようとしています。私がフォローしているドキュメントはこちらhttp://aws.amazon.com/articles/3938です。私はWindows 7コンピューターを使用しています。

このコマンドを実行しようとすると、ヘルプ情報が表示されます。

もちろん、私は Windows マシンを使用しているので、実際にこのコマンドを入力します。理由はわかりませんが、この特定のコマンドについては、Windows バージョンがありませんでした (すべてのコマンドはペアで表示され、1 つは *nix 用で、もう 1 つは Windows 用です)。

私の質問は、コマンドラインインターフェイス (Windows 上) を使用して、Windows から Amazon の EMR にジョブを送信/実行する方法です。オンラインで検索してみましたが、野生の場所に連れて行かれます。どんな助けでも大歓迎です。

ありがとう。

hadoop mapreduce elastic-map-reduce amazon-emr

2012-03-08T16:55:31.023

問題タブ [amazon-emr]

Reference