問題タブ [emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - hdfsからS3へのhadoopコピー
Amazon EMR で mahout ベクトル化ジョブを正常に完了しました (参照としてElastic MapReduce で Mahout を使用)。ここで、結果を HDFS から S3 にコピーしたいと考えています (将来のクラスタリングで使用するため)。
失敗した。その提案を見つけました:s3distcpを使用してください
どちらの場合も同じエラーが発生します: java.net.UnknownHostException: unknown host: my.bucket
2 番目のケースの完全なエラー出力の下。
amazon-s3 - DynamoDB S3 インポート
S3 から DynamoDB にインポートする場合、これはプロビジョニングされた書き込みスループットにカウントされますか?
S3 の数ギガバイトのファイルからのバッチ更新を除いて、読み取り専用のサービスがあります。プロビジョニングされた書き込みの料金を毎月払いたくありません。また、一度に 2 倍になるプロビジョニングされたレートのみを許可するという AWS のポリシーを考えると、書き込み 0 件から数百万件へのスケーリングには時間がかかる可能性があります。
java - 依存する jar を ./lib に配置するように ant を取得する
ant
jar
依存する jar を jar 内のディレクトリに配置するタスクはあります./lib
か? 現在、ant
それらを に入れ./
ます。
その理由は、MapR を使用する Amazon Hadoop EMR ではこれが必要なようです。
java - EMRエラーに関するMahout:Javaヒープスペース
EMRでクラスタリングジョブを実行しました。データセットは巨大です。まですべてがうまくいきました:
それで。基本的な質問は、それをどのように修正するかです。
hadoop - Hadoop mapreduce ジョブでインタラクティブにノード数を増減するのはいつが良い考えですか?
実行中のジョブでインタラクティブにノード数を増減すると、マップの重いジョブを高速化できると直感していますが、ほとんどの作業が削減によって行われる重いジョブの削減には役立ちません。
これについてよくある質問がありますが、実際にはあまりよく説明されていません
java - EMR の k-means 例外: java.lang.IllegalArgumentException: このファイル システム オブジェクトは、リクエスト パスへのアクセスをサポートしていません
EMR の mahout から k-means アルゴリズムを実行しようとしています。入力ベクトル化データは S3 にあります。
私のコマンド:
私が持っている例外:
コマンドの何が問題になっていますか?
hadoop - 10 TB を超える入力を処理するために、Amazon emr で Hadoop を使用することは可能ですか?
大規模な mapreduce ジョブ (14 個の入力ディレクトリを結合し、合計で約 14 TB の入力を追加) が失敗します。仕事を遂行できなかっただけではありません。map is cat / reduce is cat を実行したばかりのときは、それを完了することさえできませんでした。データのコピーで停止しているようです。
私たちの推測では、aws によってプロビジョニングされた hadoop-on-emr 容量を飽和させていると考えられます。ネットワークやディスク容量などを飽和させているのかどうかはわかりません。このようなエラーが発生します
「削減 > コピー (0.10 MB/秒で 438094 の 436333)」
Hadoop コントロール パネルで。そこにハングアップするだけで、コピーが完了することはありません。別の説では、hadoop のオフライン ソートがコピーと同時に行われており、どういうわけかこれがボトルネックになっているというものです。より多くのレデューサー、より多くのノード、さまざまなサイズのワーカー ボックスのさまざまな順列を試しましたが、どういうわけかうまくいく組み合わせを見つけることができませんでした。
これを早急に行う必要があるため、データを小さなジョブに分割するという回避策を実行しています。つまり、14 の入力年がそれぞれ分割され、パーティションが結合されます。
aws がホストする Hadoop を使用してこのサイズ以上のジョブを処理した経験のある人はいますか? もしそうなら、cat map / cat reduce だけを成功させるためのアドバイスをいただけますか? ノードの数、ノードのサイズ、構成オプションはどうですか?
そうしないと、emr の限界に達しているだけだと思います。
hadoop - EMR 用の hi1.4xlarge SSD EC2 インスタンス
EMR で実行する Hadoop ジョブがいくつかあります。これらのジョブのいくつかは、ログ ファイルを処理する必要があります。ログ ファイルは、それぞれ .gz 形式で最大 3 GB と巨大です。ログは S3 に保存されます。
現在、処理には m1.xlarge を使用していますが、S3 から HDFS にログ ファイルをコピーするだけで約 3 時間かかります。ここで、ボトルネックは S3 からの読み取りですか、それとも HDFS への書き込みですか?
私が計画していたのは、m1.xlarge ではなく、新しい SSD ベースの hi1.4xlarge を使用することです。これは、I/O が高速であるためです。しかし、それはコスト削減に役立ちますか?
しかし、hi1.4xlarge のコストは m1.xlarge よりもはるかに高くなります。
m1.xlarge - 8 EC2 コンピューティング ユニット @ 各 0.614$ = 4.912 $ /時間 h1.4xlarge - 35 EC2 コンピューティング ユニット @ 各 3.1$ = 108.5 $ / 時間
価格上昇は約 23 倍です。そんなにパフォーマンスが向上するでしょうか?私の Hadoop ジョブは I/O バウンドが高いと考えてください。
hi1.4xlarge インスタンスを起動して自分でテストすることはできないので、StackOverflow で質問してください。両方のインスタンス タイプを比較するベンチマークはありますか? Google は役に立ちませんでした。
よろしく。
map - Amazon EMR で実行中のマップタスクを強制終了するにはどうすればよいですか?
32 個のスポット インスタンスで Hadoop 0.20 を使用してジョブを実行しています。エラーなしで 9 時間実行されています。その間、3800 のタスクを処理しましたが、スタックしているように見えるタスクが 2 つだけで、数時間単独で実行されていることに気付きました (タイムアウトしないため応答しているようです)。通常、タスクに 15 分以上かかることはありません。多額の費用がかかるため、すでに完了したすべての作業を失いたくありません。私は本当にこれら 2 つのタスクを強制終了し、Hadoop にそれらを再割り当てするか、単に失敗としてカウントするようにしたいと考えています。それらが停止するまで、他の 3798 マップからの削減結果を取得できません!
しかし、私はそれを行う方法を理解できません。どのインスタンスがタスクを実行しているかを把握し、それらのインスタンスを終了することを検討しましたが、
- どのインスタンスが原因であるかを特定する方法がわかりません
- 思わぬ影響が出る恐れがあります。
個々のマップ タスクを強制終了するにはどうすればよいですか?
hadoop - EMR で開いているファイルが多すぎます
レデューサーで次の例外が発生しています。
レデューサーあたり約 10,000 個のファイルが作成されています。各ボックスの ulimit を設定する方法はありますか。
次のコマンドをブートストラップ スクリプトとして使用してみました: ulimit -n 1000000
しかし、これはまったく役に立ちませんでした。
/usr/lib/hadoop/hadoop-daemon.sh の ulimit コマンドを置き換えるために、ブートストラップ アクションで次のことも試しました。
しかし、それでもマスターノードにログインすると、ulimit -n が 32768 を返すことがわかります。また、/usr/lib/hadoop/hadoop-daemon.sh で目的の変更が行われ、ulimit -n があったことも確認しました。 134217728。
このための Hadoop 構成はありますか? または、これに対する回避策はありますか?
私の主な目的は、各レコードの ID に従ってレコードをファイルに分割することです。現在、15 億のレコードがあり、確実に増加する可能性があります。
このデーモンが各スレーブで実行される前に、このファイルを編集する方法はありますか?