問題タブ [amazon-emr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
583 参照

python - mrjob: VPC でジョブフローを実行することは可能ですか?

mrjob を使用して EMR でいくつかの MapReduce タスクを実行していますが、VPC でジョブ フローを実行したいと考えています。mrjob と boto のドキュメントを見ましたが、どれもこれをサポートしていないようです。

これが可能かどうか誰にもわかりますか?

0 投票する
1 に答える
11203 参照

hadoop - hdfsからS3へのhadoopコピー

Amazon EMR で mahout ベクトル化ジョブを正常に完了しました (参照としてElastic MapReduce で Mahout を使用)。ここで、結果を HDFS から S3 にコピーしたいと考えています (将来のクラスタリングで使用するため)。

失敗した。その提案を見つけました:s3distcpを使用してください

どちらの場合も同じエラーが発生します: java.net.UnknownHostException: unknown host: my.bucket
2 番目のケースの完全なエラー出力の下。

0 投票する
1 に答える
361 参照

java - IDマッパーがメモリから抜け出すことができるのはなぜですか?

リデュースのみのHadoopジョブでは、入力ファイルはIDマッパーによって処理され、変更なしでレデューサーに送信されます。私のある仕事では、「メモリ不足エラー」と「GCオーバーヘッド制限を超えました」というマップフェーズでジョブが失敗するのを見て非常に驚きました。

私の理解では、IDマッパーのメモリリークは問題外です。そのようなエラーの原因は何でしょうか?

0 投票する
1 に答える
1183 参照

amazon-s3 - DynamoDB S3 インポート

S3 から DynamoDB にインポートする場合、これはプロビジョニングされた書き込みスループットにカウントされますか?

S3 の数ギガバイトのファイルからのバッチ更新を除いて、読み取り専用のサービスがあります。プロビジョニングされた書き込みの料金を毎月払いたくありません。また、一度に 2 倍になるプロビジョニングされたレートのみを許可するという AWS のポリシーを考えると、書き込み 0 件から数百万件へのスケーリングには時間がかかる可能性があります。

0 投票する
1 に答える
588 参照

hadoop - Amazon EMRでHBaseを実行している場合、実際のデータと比較して/ tmpフォルダーが巨大なのはなぜですか?

AmazonEMRにデフォルト構成のhadoop+hbaseクラスターがあるため、との両方がmapred.child.tmphbase.tmp.dir指し/tmpます。私たちのクラスターはしばらくの間実行されていましたが、実際のデータ/tmpの70Gbと比較して、現在は500Gbです。/hbase

このような違いは大きすぎるようですが、一部の/tmpデータを定期的に削除することになっていますか?

0 投票する
2 に答える
1247 参照

hadoop - piggybank と AvroStorage を使用した EMR のトラブルに対処する

Avro 形式で保存されたデータを読み取る EMR で豚のスクリプトを実行しています。ローカルで動作していましたが、スクリプトの他の部分を EMR で動作させるために、使用していた piggybank.jar を 0.10.0 ではなく 0.9.2 に戻す必要がありました。その変更を行った後、AvroStorage は暗黙のうちにデータの読み取りに失敗し、ゼロ レコードを返すだけです。ログなどには何も言及されていません。スクリプトは次のとおりです。

また、piggybank.jar がバージョン 0.10.0 の場合、動作します。バージョン 0.9.2 の場合はありません。他のライブラリの別のバージョンを使用する必要がありますか? avro-1.5.3.jar で試してみましたが、これもうまくいきませんでした。

別の注意:そうするとdescribe a;、スキーマが正しく出力されます。

0 投票する
1 に答える
181 参照

hadoop - Amazonhbaseからデータを読み取る

org.apache.hadoop.conf.Configurationとorg.apache.hadoop.hbase.client.HTablePoolを使用してAmazonhbaseからデータを読み取ることができるかどうかを誰かが私に提案できますか?

その上でhbaseを実行しているAmazonのEMRフレームワークに移行しています。

現在の実装は、純粋なApacheHadoopおよびhbaseディストリビューションに基づいています。AmazonのEMRに移行しても、コードを変更する必要がないことを確認しようとしています。

あなたの考えを共有してください。

0 投票する
2 に答える
426 参照

perl - Perl モジュールをインストールする Elastic MapReduce ブートストラップ

Elastic MapReduce のストリーミング機能でマッパーとして実行される Perl スクリプトを作成しようとしています。Net::Amazon::S3 (またはおそらくより移植性の高い Amazon::S3) を使用して、S3 との間でファイルの追加の I/O を実行しようとしています。そのモジュールはデフォルトの AMI にないため、bootstrap-action スクリプトで CPAN を使用してインストールしようとしています。現在、ブートストラップ スクリプトには以下が含まれています。

perl -MCPAN -e 'CPAN::Shell->install(Amazon::S3)'

ただし、15 分経ってもブートストラップ アクションはまだ完了していないため、何らかの入力を待っていると考えられます。いろいろ調べましたが、Perl モジュールをロードするブートストラップ アクション スクリプトの例は見つかりませんでした。誰かが私にそれについてアドバイスできますか?

前もって感謝します...

0 投票する
0 に答える
459 参照

java - EMR の k-means 例外: java.lang.IllegalArgumentException: このファイル システム オブジェクトは、リクエスト パスへのアクセスをサポートしていません

EMR の mahout から k-means アルゴリズムを実行しようとしています。入力ベクトル化データは S3 にあります。
私のコマンド:

私が持っている例外:

コマンドの何が問題になっていますか?

0 投票する
1 に答える
1219 参照

amazon-web-services - Amazon Elastic MapReduce サービスを使用する場合にサードパーティのライブラリを Hadoop に含める方法

weka というサードパーティのライブラリを使用して、いくつかのデータ マイニング タスクを実行する必要があります。しかし、Amazon Elastic MapReduce サービスに必要な jar ファイルを含める方法がわかりません。

このケースに対処した経験のある人はいますか?