問題タブ [emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
variables - Hive の変数値を入力として使用する Hive 内でシェル コマンドを実行する
Hive テーブル名と 2 つの日付を受け取り、それらの日付の間にすべてのパーティションを追加する Python スクリプトがあります。(たくさんの を実行しますhive -e 'alter table add partition (date=...)'
)
私がやりたいことは、hiveconf:date 変数を持つ Hive スクリプトを実行して、入力として python スクリプトに渡すことです。
何かのようなもの:
もちろん、変数の置換は行われません...
これを達成する方法はありますか?
hive - テーブルに時間パーティションを追加するためのベスト プラクティス
時間 (年、月、日、時間) で分割されたイベント テーブルを持つ年、月、日、時間を変数として取得するハイブ スクリプトでいくつかのイベントに参加したいのですが、たとえば 6 時間すべてからイベントを追加するにはどうすればよいですか「すべて回復...」なしで私の時間の前に
10倍
hadoop - AWS Elastic Mapreduce ジョブから Zookeeper にアクセスできますか?
Hadoop は初めてで、AWS Elastic Mapreduce で実行しています。
Hadoop でクラスター全体のアトミック カウンターが必要であり、これには Zookeeper を使用するよう提案されました。
Zookeeper は Hadoop スタックの一部であると思いますが (そうですか?)、クラスター全体のカウンターを設定および更新するには、Elastic Mapreduce ジョブからどのようにアクセスすればよいでしょうか?
hadoop - マッパーの最初のセットが完了すると、マップ ジョブの速度が低下するのはなぜですか?
100 のマッパーが並行して実行されており、合計 500 のマッパーが実行されているとします。
各マッパーが受け取る入力サイズはほぼ同じで、各マッパーにかかる処理時間はほぼ同じです。
しかし、最初の 100 人のマッパーが 20 分で終了するとします。次の 100 人のマッパーは 25 ~ 30 分かかり、次の 100 人のマッパーのバッチはそれぞれ約 40 ~ 50 分かかります。その後、GC オーバーヘッド エラーが発生します。
なぜこうなった?
次の構成が既に設定されています。
ここで他に何ができますか?
hadoop - ヒープメモリとともに並列マッパー/リデューサーの数を決定する方法は?
11ノードのクラスターでEMRジョブを実行しているとします。m1.smallマスターノードと10m1.xlargeスレーブノードです。
これで、1つのm1.xlargeノードに15GBのRAMが搭載されました。
次に、設定できる並列マッパーとレデューサーの数を決定するにはどうすればよいですか?
私の仕事はメモリを大量に消費するため、JVMにさらに多くのヒープを割り当てたいと考えています。
別の関連する質問:次のパラメーターを設定した場合:
では、この4GBは4つのプロセス(2つのマッパーと2つのレデューサー)で共有されるのでしょうか、それともすべてがそれぞれ4GBを取得するのでしょうか。
file-io - Amazon Elastic MapReduce で外部ファイルを読み取る方法
こんにちは、Amazon EMR と Hadoop を初めて使用します。EMR ジョブから外部ファイル (S3 に保存されている) を読み取る方法を知りたいと思っていました。たとえば、ブラックリストに登録された文字列の長いリストを含むファイルがあります。EMR ジョブが入力を処理しているときに、処理中に使用するために、ブラックリストに登録された文字列のリストをジョブに事前に読み込ませるにはどうすればよいですか?
通常のJava Scannerクラスを使用して、ファイルへのS3パスをハードコーディングしようとしましたが、うまくいかないようでしたが、間違っている可能性があります...
hadoop - Amazon EMR で s3distcp を使用して単一のファイルをコピーする
s3distcp を使用して、1 つのファイルだけを HDFS にコピーしたいと考えています。srcPattern 引数を使用してみましたが、役に立たず、java.lang.Runtime 例外がスローされ続けます。私が使用している正規表現が原因である可能性があります。助けてください。
私のコードは次のとおりです。
スローされた例外:
java - 巨大なデータセット(5 GB)用の高速アクセスKey-Valueストレージを使用するための最良の方法
サイズが最大5GBのデータセットがあります。この大きなデータセットには、行ごとにキーと値のペアがあります。ここで、これをキーの値について数十億回読み取る必要があります。
私はすでにMapDBのディスクベースのアプローチを試しましたが、それはスローConcurrentModification Exception
され、実稼働環境で使用するにはまだ十分に成熟していません。
また、それをDBに入れて、何十億回も呼び出しを行いたくありません(ただし、ここで特定のレベルのメモリ内キャッシュを実行できます)。
基本的に、Hadoopのジョブステップのマッパー/リデューサーでこれらのKey-Valueデータセットにアクセスする必要があります。
emr - S3 から Amazon EMR の maprfs へのファイルのコピー
EMR で実行されている MapR で Amazon の S3Distcp ツールを使用する際に問題があるかどうか知っている人はいますか? 使用しようとしていますが、/mnt/var/log/hadoop/steps で次の例外が引き続き発生します。
ジョブ ステップを送信するために使用しているコマンド ラインは次のとおりです。
--dest 引数については、maprfs:///PVData/raw と hdfs:///PVData/raw も試しましたが、どちらも機能しません。
hadoop - Hadoop Job Tracker Web インターフェイスから EMR タスク ログにアクセスする
ローカル ブラウザからジョブ トラッカー インターフェイスにアクセスできるように、マスター/スレーブ ノードの EC2 セキュリティ グループを開きました。を使用して接続しhttp://MASTER-IP:9100
ます。
タスクの詳細からタスクトラッカーログにアクセスしようとするまで、すべてがうまく機能します -http://ec2-xx-xx-xx-xx.compute-1.amazonaws.com:9100/taskdetails.jsp?tipid=task_201212181113_0001_m_000000
そこにあるリンクは内部 EC2 IP アドレスへのものであるため、ローカル マシンからアクセスできません (リンクはhttp://10.116.xxx.xx:9103/tasklog?attemptid=attempt_201212181113_0001_m_000000_0&all=true
) 。
これらのリンクにタスク トラッカーのパブリック IP が含まれるように EMR を変更する方法はありますか?
ありがとう!