問題タブ [elastic-map-reduce]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - EMRジョブを実行するためのAWSポリシーの最小要件
com.test.mybucket
MRJob Pythonフレームワークを使用して、S3バケットからのデータに対してElasticMapreduceを実行したいと思います。ただし、S3には他にもたくさんのデータがあり、他のEC2インスタンスには触れたくありません。AWSユーザーが完全なジョブを実行するために必要となる可能性のある最小限のアクセスクレデンシャルのセットは何ですか?
amazon-s3 - AmazonMapReduce入力の分割とダウンロード
私はEMRを初めて使用し、過去数日間苦労してきたいくつかの質問がありました。最初のログは、処理したいログがすでに.gzとして圧縮されており、これらのタイプのファイルをemrで分割して、1つのファイルで複数のマッパーが機能するかどうか疑問に思っていました。また、入力ファイルは5 GBでない限り分割されないことを読んでいますが、ファイルはそれほど大きくないので、1つのインスタンスでのみ処理されるということですか?
私の他の質問は比較的ばかげているように見えるかもしれませんが、emr + streamingを使用して、s3以外の場所に入力を入れることは可能ですか?CDNからログをダウンロードしてから、それらをs3バケットにアップロードしてmapreduceを実行する必要があるのは冗長なようです。今、私はそれらを私のサーバーにダウンロードしていて、私のサーバーはそれらをs3にアップロードしています、仲介者を切り取ってs3に直接移動させる方法、または私のサーバーから入力を実行する方法はありますか?
hadoop - ハイブで mapreduce タスクの数を 1 に設定する方法
ハイブでフォローしてみました-
最大数と削減されたタスクの数を 1 に設定しているにもかかわらず、2 つのマップ削減タスクが生成されていることがわかります。下記を参照してください-
amazon-ec2 - AWS EC2 でのジョブのスケジューリング
AWS EC2 で実行されている Web サイトがあります。サイトマップ ファイルを生成し、ファイルをさまざまなブラウザーにアップロードする夜間ジョブを作成する必要があります。この機能を可能にする AWS のユーティリティを探しています。私は次のことを検討しました:
1) このタスクを実行するトリガーとなる Web サーバーへの要求を生成します。
- サーバースレッドを拘束し、ホストでCPUサイクルを使用するため、このアプローチは好きではありません
2) このタスクを実行するために、Web サーバーが実行されているマシンで cron ジョブを作成します。
- 繰り返しますが、Web サーバーから CPU サイクルが奪われるため、このアプローチは好きではありません。
3) 別の EC2 インスタンスを作成し、cron ジョブを設定してタスクを実行する
- これで Web サーバーのリソースの問題は解決しますが、5 分未満のジョブを実行するために追加の EC2 インスタンスにお金を払う必要はありません。お金の無駄!
他のオプションはありますか?これは ElasticMapReduce の仕事ですか?
amazon-web-services - Karmasphere Analyst と Amazon Elastic MapReduce を使用して jobconf パラメーターを設定する
Karmasphere Analyst プロファイラーは、いくつかの jobconf パラメーターを設定することを提案しました (例: mapred.map.output.compression.codec=org.apache.hadoop.io.compress.LzoCodec)。しかし、これらを設定する場所がわかりません。また、Karmasphere Analyst のドキュメントにも記載されていません。
Access->Configuration->Extra Settings で設定してみましたが、効果がないようでした。また、「新しいクラウド接続」ウィンドウで、これを「追加パラメーター」フィールドに入れてみました (JSON 文字列として、{mapred.map.output.compression.codec=org.apache.hadoop.io.compress.LzoCodec} )、しかし、これによりサイレント エラーが発生し、ジョブフローが開始されませんでした。
ご協力いただきありがとうございます!
apache-pig - Apache Pigでデータ型を修正するにはどうすればよいですか?
データ型エラーのため、値のバッグを合計するのに問題があります。
次のような行のcsvファイルをロードすると、次のようになります。
以下を使用します。
「describe」コマンドで示されているように、すべてのフィールドが正しく読み込まれ、正しいタイプであるように見えます。
以下を使用してSUMを実行するときはいつでも:
内容を保存またはダンプすると、mapreduceプロセスは次のエラーで失敗します。
私の注意を引く行は次のとおりです。
これにより、extract関数がbytesフィールドを必要なデータ型(long)に変換していないと思います。
正しいデータ型に変換するために抽出関数を強制する方法はありますか?すべてのレコードに対してFOREACHを実行せずに、どうすれば値をキャストできますか?(時刻をUNIXタイムスタンプに変換し、MINを見つけようとすると、同じ問題が発生します。不要な予測を必要としない解決策を見つけたいと思います)。
任意のポインタをいただければ幸いです。どうもありがとうございました。
よろしく、ホルヘC。
PS私はこれをAmazonElasticMapreduceサービスでインタラクティブモードで実行しています。
hadoop - フルスケール Hadoop ジョブの実行時の OutOfMemory エラー
Amazon Elastic MapReduce で Hadoop ジョブを実行していますが、OutOfMemory エラーが発生し続けます。値は確かにほとんどの MapReduce 値よりも少し大きいですが、サイズを劇的に小さくしてもまだ発生しているようです。スタック トレースは次のとおりです。
このスタック トレースは完全に私のコードの範囲外であるため、どのコードを表示すればよいか正確にはわかりません。バージョンはhadoop 0.20.205です
一度に読み取る値が少なくなるようにレデューサーを構成する方法はありますか? 利用可能なメモリに基づいて自動的に処理されるべきではありませんか?
hadoop - hadoopが\r\nを\nに変換し、ARC形式を破る
Hadoopストリーミングを使用してcommoncrawl.orgからのデータを解析しようとしています。コードをテストするためにローカルHadoopをセットアップし、ストリーミングARCfileリーダーを使用する単純なRubyマッパーを用意しました。自分でコードを呼び出すと
期待どおりに動作します。
hadoopは、ファイルの拡張子が.gzであることを自動的に認識し、解凍してからマッパーに渡すようです。ただし、そうしている間、ストリーム内の\ r\n改行を\nに変換します。ARCはヘッダー行のレコード長に依存しているため、変更するとパーサーが破損します(データ長が変更されたため)。
再確認するために、非圧縮データを期待するようにマッパーを変更し、次のことを行いました。
そしてそれは動作します。
私はhadoopが自動的に解凍することを気にしませんが(ストリーミング.gzファイルを非常にうまく処理できますが)、必要な場合は、改行変換などを行わずに「バイナリ」で解凍する必要があります。デフォルトの動作は、解凍されたファイルをファイルごとに1つのマッパーにフィードすることであると思います。これは完璧です。
.gzを解凍しないように依頼する(ファイルの名前を変更することはできません)か、正しく解凍するようにするにはどうすればよいですか?可能であれば、jarファイルで出荷する必要がある特別なInputFormatクラスを使用したくありません。
これらはすべて、最終的にAWSElasticMapReduceで実行されます。
hadoop - Amazon Elastic Map Reduce はインスタンスごとに 1 つまたは複数のマッパープロセスを実行しますか?
私の質問は、マッパーでマルチプロセッシングを自分で処理する必要があるか (標準入力からタスクを読み取り、ワーカー プロセスに分散し、結果をマスター プロセスに結合して標準出力に出力する)、Hadoop が自動的に処理するかどうかです。
Hadoop ストリーミングのドキュメントにも、Amazon Elastic MapReduce FAQ にも答えが見つかりませんでした。
hadoop - AmazonMapReduceでコンパイルされたバイナリを呼び出す
AmazonElasticMapReduceでデータ分析を行おうとしています。マッパーステップは、「。/formatData」と呼ばれるコンパイル済みC++バイナリへの呼び出しを含むPythonスクリプトです。例えば:
Amazon EMRでこのようなバイナリ実行可能ファイルを呼び出すことはできますか?もしそうなら、バイナリをどこに保存しますか(S3で?)、どのプラットフォームでコンパイルする必要があり、マッパースクリプトがバイナリにアクセスできるようにする方法(理想的には現在の作業ディレクトリにあります)。
ありがとう!