問題タブ [emr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
473 参照

variables - Hive の変数値を入力として使用する Hive 内でシェル コマンドを実行する

Hive テーブル名と 2 つの日付を受け取り、それらの日付の間にすべてのパーティションを追加する Python スクリプトがあります。(たくさんの を実行しますhive -e 'alter table add partition (date=...)')

私がやりたいことは、hiveconf:date 変数を持つ Hive スクリプトを実行して、入力として python スクリプトに渡すことです。

何かのようなもの:

もちろん、変数の置換は行われません...

これを達成する方法はありますか?

0 投票する
1 に答える
433 参照

hive - テーブルに時間パーティションを追加するためのベスト プラクティス

時間 (年、月、日、時間) で分割されたイベント テーブルを持つ年、月、日、時間を変数として取得するハイブ スクリプトでいくつかのイベントに参加したいのですが、たとえば 6 時間すべてからイベントを追加するにはどうすればよいですか「すべて回復...」なしで私の時間の前に

10倍

0 投票する
2 に答える
2003 参照

hadoop - AWS Elastic Mapreduce ジョブから Zookeeper にアクセスできますか?

Hadoop は初めてで、AWS Elastic Mapreduce で実行しています。

Hadoop でクラスター全体のアトミック カウンターが必要であり、これには Zookeeper を使用するよう提案されました。

Zookeeper は Hadoop スタックの一部であると思いますが (そうですか?)、クラスター全体のカウンターを設定および更新するには、Elastic Mapreduce ジョブからどのようにアクセスすればよいでしょうか?

0 投票する
0 に答える
611 参照

hadoop - マッパーの最初のセットが完了すると、マップ ジョブの速度が低下するのはなぜですか?

100 のマッパーが並行して実行されており、合計 500 のマッパーが実行されているとします。

各マッパーが受け取る入力サイズはほぼ同じで、各マッパーにかかる処理時間はほぼ同じです。

しかし、最初の 100 人のマッパーが 20 分で終了するとします。次の 100 人のマッパーは 25 ~ 30 分かかり、次の 100 人のマッパーのバッチはそれぞれ約 40 ~ 50 分かかります。その後、GC オーバーヘッド エラーが発生します。

なぜこうなった?

次の構成が既に設定されています。

ここで他に何ができますか?

0 投票する
1 に答える
553 参照

hadoop - ヒープメモリとともに並列マッパー/リデューサーの数を決定する方法は?

11ノードのクラスターでEMRジョブを実行しているとします。m1.smallマスターノードと10m1.xlargeスレーブノードです。

これで、1つのm1.xlargeノードに15GBのRAMが搭載されました。

次に、設定できる並列マッパーとレデューサーの数を決定するにはどうすればよいですか?

私の仕事はメモリを大量に消費するため、JVMにさらに多くのヒープを割り当てたいと考えています。

別の関連する質問:次のパラメーターを設定した場合:

では、この4GBは4つのプロセス(2つのマッパーと2つのレデューサー)で共有されるのでしょうか、それともすべてがそれぞれ4GBを取得するのでしょうか。

0 投票する
2 に答える
781 参照

file-io - Amazon Elastic MapReduce で外部ファイルを読み取る方法

こんにちは、Amazon EMR と Hadoop を初めて使用します。EMR ジョブから外部ファイル (S3 に保存されている) を読み取る方法を知りたいと思っていました。たとえば、ブラックリストに登録された文字列の長いリストを含むファイルがあります。EMR ジョブが入力を処理しているときに、処理中に使用するために、ブラックリストに登録された文字列のリストをジョブに事前に読み込ませるにはどうすればよいですか?

通常のJava Scannerクラスを使用して、ファイルへのS3パスをハードコーディングしようとしましたが、うまくいかないようでしたが、間違っている可能性があります...

0 投票する
2 に答える
4342 参照

hadoop - Amazon EMR で s3distcp を使用して単一のファイルをコピーする

s3distcp を使用して、1 つのファイルだけを HDFS にコピーしたいと考えています。srcPattern 引数を使用してみましたが、役に立たず、java.lang.Runtime 例外がスローされ続けます。私が使用している正規表現が原因である可能性があります。助けてください。

私のコードは次のとおりです。

スローされた例外:

0 投票する
4 に答える
985 参照

java - 巨大なデータセット(5 GB)用の高速アクセスKey-Valueストレージを使用するための最良の方法

サイズが最大5GBのデータセットがあります。この大きなデータセットには、行ごとにキーと値のペアがあります。ここで、これをキーの値について数十億回読み取る必要があります。

私はすでにMapDBのディスクベースのアプローチを試しましたが、それはスローConcurrentModification Exceptionされ、実稼働環境で使用するにはまだ十分に成熟していません。

また、それをDBに入れて、何十億回も呼び出しを行いたくありません(ただし、ここで特定のレベルのメモリ内キャッシュを実行できます)。

基本的に、Hadoopのジョブステップのマッパー/リデューサーでこれらのKey-Valueデータセットにアクセスする必要があります。

0 投票する
1 に答える
883 参照

emr - S3 から Amazon EMR の maprfs へのファイルのコピー

EMR で実行されている MapR で Amazon の S3Distcp ツールを使用する際に問題があるかどうか知っている人はいますか? 使用しようとしていますが、/mnt/var/log/hadoop/steps で次の例外が引き続き発生します。

ジョブ ステップを送信するために使用しているコマンド ラインは次のとおりです。

--dest 引数については、maprfs:///PVData/raw と hdfs:///PVData/raw も試しましたが、どちらも機能しません。

0 投票する
3 に答える
3258 参照

hadoop - Hadoop Job Tracker Web インターフェイスから EMR タスク ログにアクセスする

ローカル ブラウザからジョブ トラッカー インターフェイスにアクセスできるように、マスター/スレーブ ノードの EC2 セキュリティ グループを開きました。を使用して接続しhttp://MASTER-IP:9100ます。

タスクの詳細からタスクトラッカーログにアクセスしようとするまで、すべてがうまく機能します -http://ec2-xx-xx-xx-xx.compute-1.amazonaws.com:9100/taskdetails.jsp?tipid=task_201212181113_0001_m_000000

そこにあるリンクは内部 EC2 IP アドレスへのものであるため、ローカル マシンからアクセスできません (リンクはhttp://10.116.xxx.xx:9103/tasklog?attemptid=attempt_201212181113_0001_m_000000_0&all=true) 。

これらのリンクにタスク トラッカーのパブリック IP が含まれるように EMR を変更する方法はありますか?

ありがとう!