問題タブ [amazon-emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - mrjob: VPC でジョブフローを実行することは可能ですか?
mrjob を使用して EMR でいくつかの MapReduce タスクを実行していますが、VPC でジョブ フローを実行したいと考えています。mrjob と boto のドキュメントを見ましたが、どれもこれをサポートしていないようです。
これが可能かどうか誰にもわかりますか?
hadoop - hdfsからS3へのhadoopコピー
Amazon EMR で mahout ベクトル化ジョブを正常に完了しました (参照としてElastic MapReduce で Mahout を使用)。ここで、結果を HDFS から S3 にコピーしたいと考えています (将来のクラスタリングで使用するため)。
失敗した。その提案を見つけました:s3distcpを使用してください
どちらの場合も同じエラーが発生します: java.net.UnknownHostException: unknown host: my.bucket
2 番目のケースの完全なエラー出力の下。
java - IDマッパーがメモリから抜け出すことができるのはなぜですか?
リデュースのみのHadoopジョブでは、入力ファイルはIDマッパーによって処理され、変更なしでレデューサーに送信されます。私のある仕事では、「メモリ不足エラー」と「GCオーバーヘッド制限を超えました」というマップフェーズでジョブが失敗するのを見て非常に驚きました。
私の理解では、IDマッパーのメモリリークは問題外です。そのようなエラーの原因は何でしょうか?
amazon-s3 - DynamoDB S3 インポート
S3 から DynamoDB にインポートする場合、これはプロビジョニングされた書き込みスループットにカウントされますか?
S3 の数ギガバイトのファイルからのバッチ更新を除いて、読み取り専用のサービスがあります。プロビジョニングされた書き込みの料金を毎月払いたくありません。また、一度に 2 倍になるプロビジョニングされたレートのみを許可するという AWS のポリシーを考えると、書き込み 0 件から数百万件へのスケーリングには時間がかかる可能性があります。
hadoop - Amazon EMRでHBaseを実行している場合、実際のデータと比較して/ tmpフォルダーが巨大なのはなぜですか?
AmazonEMRにデフォルト構成のhadoop+hbaseクラスターがあるため、との両方がmapred.child.tmp
をhbase.tmp.dir
指し/tmp
ます。私たちのクラスターはしばらくの間実行されていましたが、実際のデータ/tmp
の70Gbと比較して、現在は500Gbです。/hbase
このような違いは大きすぎるようですが、一部の/tmp
データを定期的に削除することになっていますか?
hadoop - piggybank と AvroStorage を使用した EMR のトラブルに対処する
Avro 形式で保存されたデータを読み取る EMR で豚のスクリプトを実行しています。ローカルで動作していましたが、スクリプトの他の部分を EMR で動作させるために、使用していた piggybank.jar を 0.10.0 ではなく 0.9.2 に戻す必要がありました。その変更を行った後、AvroStorage は暗黙のうちにデータの読み取りに失敗し、ゼロ レコードを返すだけです。ログなどには何も言及されていません。スクリプトは次のとおりです。
また、piggybank.jar がバージョン 0.10.0 の場合、動作します。バージョン 0.9.2 の場合はありません。他のライブラリの別のバージョンを使用する必要がありますか? avro-1.5.3.jar で試してみましたが、これもうまくいきませんでした。
別の注意:そうするとdescribe a;
、スキーマが正しく出力されます。
hadoop - Amazonhbaseからデータを読み取る
org.apache.hadoop.conf.Configurationとorg.apache.hadoop.hbase.client.HTablePoolを使用してAmazonhbaseからデータを読み取ることができるかどうかを誰かが私に提案できますか?
その上でhbaseを実行しているAmazonのEMRフレームワークに移行しています。
現在の実装は、純粋なApacheHadoopおよびhbaseディストリビューションに基づいています。AmazonのEMRに移行しても、コードを変更する必要がないことを確認しようとしています。
あなたの考えを共有してください。
perl - Perl モジュールをインストールする Elastic MapReduce ブートストラップ
Elastic MapReduce のストリーミング機能でマッパーとして実行される Perl スクリプトを作成しようとしています。Net::Amazon::S3 (またはおそらくより移植性の高い Amazon::S3) を使用して、S3 との間でファイルの追加の I/O を実行しようとしています。そのモジュールはデフォルトの AMI にないため、bootstrap-action スクリプトで CPAN を使用してインストールしようとしています。現在、ブートストラップ スクリプトには以下が含まれています。
perl -MCPAN -e 'CPAN::Shell->install(Amazon::S3)'
ただし、15 分経ってもブートストラップ アクションはまだ完了していないため、何らかの入力を待っていると考えられます。いろいろ調べましたが、Perl モジュールをロードするブートストラップ アクション スクリプトの例は見つかりませんでした。誰かが私にそれについてアドバイスできますか?
前もって感謝します...
java - EMR の k-means 例外: java.lang.IllegalArgumentException: このファイル システム オブジェクトは、リクエスト パスへのアクセスをサポートしていません
EMR の mahout から k-means アルゴリズムを実行しようとしています。入力ベクトル化データは S3 にあります。
私のコマンド:
私が持っている例外:
コマンドの何が問題になっていますか?
amazon-web-services - Amazon Elastic MapReduce サービスを使用する場合にサードパーティのライブラリを Hadoop に含める方法
weka というサードパーティのライブラリを使用して、いくつかのデータ マイニング タスクを実行する必要があります。しかし、Amazon Elastic MapReduce サービスに必要な jar ファイルを含める方法がわかりません。
このケースに対処した経験のある人はいますか?