問題タブ [emr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - EMR - ハイブと Java を一緒に
Amazon Elastic-Map-Reduce を使用しています。Java コードを使用する (Transform 機能を使用して) HIVE クエリを実行することはできますか?
新しいジョブフローを作成するとき、カスタム jar プログラムとハイブ プログラムのどちらかを選択する必要がありますが、両方が必要です...
よろしくお願いします!
jar - EMR で mahout RecommenderJob を実行する
Amazon EMR で RecommenderJob を実行しようとしています。SmartJukebox.jar (実行不可) という jar があり、クラス main.TrackRecommander が含まれています (それだけです)。
jar を使用してジョブ フローを作成しました。
s3n://smartjukebox/SmartJukebox.jar
および引数:
main.TrackRecommander --input s3n://smartjukebox/ratings.csv --output s3n://smartjukebox/output --usersFile s3n://smartjukebox/user.txt.
クラス TrackRecommander はクラス RecommenderJob を使用します。
ジョブフローを実行すると、エラーログにこれが表示されます -
スレッド「メイン」の例外 java.lang.NoClassDefFoundError: org/apache/mahout/cf/taste/hadoop/item/RecommenderJob at main.TrackRecommander.main(TrackRecommander.java:136) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native) Method) で sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) で sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) で java.lang.reflect.Method.invoke(Method.java:597) でorg.apache.hadoop.util.RunJar.main(RunJar.java:156) 原因: java.lang.ClassNotFoundException: org.apache.mahout.cf.taste.hadoop.item.RecommenderJob at java.net.URLClassLoader$1. java.security.AccessController.doPrivileged(Native Method) で (URLClassLoader.java:202) を実行し、java.net.URLClassLoader.findClass(URLClassLoader.java:190) at java.lang.ClassLoader.loadClass(ClassLoader.java:306) at java.lang.ClassLoader.loadClass(ClassLoader.java:247) ... 6 もっと見る
JVM が RecommenderJob を見つけることができず、RecommenderJob を jar に入れていないことがわかりました。EMR には mahout jar が組み込まれていると思いましたが、それについては何も見つかりません。
ここでの解決策は何ですか?
ありがとう。
python - EMRのMRJobにモジュールをインポートします
簡単な質問:メインのMRJobスクリプトで必要ないくつかの変数を定義するモジュールheaders.pyがあります。私はで仕事を実行できるはずです
次に、私のMRJobスクリプト(MRMyJob)で、次のように機能するはずです。
右?mrjob --helpページから:「-file=UPLOAD_FILESファイルをこのスクリプトの作業ディレクトリにコピーします。-fileは複数回使用できます。」
インポートしようとすると、まだ「ヘッダーという名前のモジュールがありません」というメッセージが表示されます。
amazon-s3 - EMR を使用して異なるアカウント間で dynamoDB テーブルをコピーする
ある DynamoDB アカウントに、別のアカウントに転送したい情報のテーブルが多数あります。http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.htmlのように、EMR を使用して 1 つのアカウント内でテーブルをコピーできることがわかりましたが、異なるアカウント間で転送する方法はありますか?
hadoop - Amazon EMR JSON
ビッグデータ処理に Amazon EMR Hadoop Hive を使用しています。ログ ファイルの現在のデータは CSV 形式です。ログファイルからテーブルを作成するために、データを解析して外部テーブルの異なる列に保存する正規表現を作成しました。SerDe を使用して JSON 形式のデータを読み取ることができることはわかっています。これは、ログ ファイルの各行を JSON オブジェクトとして扱うことができることを意味します。ログ ファイルが CSV 形式と比較して JSON 形式である場合、Hadoop のパフォーマンス上の利点はありますか。
amazon-web-services - s3 からハイブへの圧縮 (lzo) データのインポート
バックアップの手段として (EMR 経由で) DynamoDB テーブルを s3 にエクスポートします。エクスポートするときは、データを lzo 圧縮ファイルとして保存します。私のハイブ クエリは以下のとおりですが、基本的にはhttp://docs.amazonwebservices.com/amazondynamodb/latest/developerguide/EMR_Hive_Commands.htmlの「データ圧縮を使用して Amazon DynamoDB テーブルを Amazon S3 バケットにエクスポートするには」に従いました。
逆のことをしたいのですが、LZOファイルを取得して、それらをハイブテーブルに戻します。これどうやってやるの?入力用のハイブ構成プロパティが表示されることを期待していましたが、ありません。私はググっていくつかのヒントを見つけましたが、決定的なものも機能するものもありません。
s3 のファイルの形式は次のとおりです: s3://[mybucket]/backup/year=2012/month=08/day=01/000000.lzo
エクスポートを行う HQL は次のとおりです。
s3から取得し、解凍して、ハイブテーブルに入れる方法はありますか??
amazon-s3 - EMR ファイルを 1 つに結合する方法は?
大きなバイナリ ファイルを (2Gb) チャンクに分割し、Amazon S3 にアップロードしました。今、それを 1 つのファイルに結合して、カスタムで処理したい
走ってみた
しかし、ローカル端末への -cat 出力データが原因で失敗しました - リモートでは動作しません...
どうすればこれを行うことができますか?
PS私は猫をストリーミングMRジョブとして実行しようとしました:
この仕事は無事に終わりました。しかし。dir/in に 3 つのファイル パーツがありましたが、現在は /dir/out に 6 つのパーツがあります。
そして、私の出力の一部ではないファイル_SUCCESS ofcource...
そう。ファイルの前に分割された結合方法は?
hive - インスタンス数を増やしても Hive クエリの速度が上がらない理由
Amazon の Elastic MapReduce で Hive を使用してテーブルを作成し、データをインポートしてパーティション分割しました。ここで、テーブル フィールドの 1 つから最も頻繁に使用される単語をカウントするクエリを実行します。
1 つのマスター インスタンスと 2 つのコア インスタンスがあり、計算に 180 秒かかったときに、そのクエリを実行しました。次に、1 つのマスターと 10 のコアを持つように再構成しましたが、これも 180 秒かかりました。なぜ速くしないのですか?
2 コアと 10 コアで実行すると、ほぼ同じ出力が得られます。
php - Amazon AWS PHP SDK - クラスターの起動に失敗しました - 指定された SSH キー名が無効でした
クラスターを起動してジョブフローにジョブを追加するための PHP ページを作成しようとしています。
クラスターが起動され、ジョブ フロー ID が表示されます。しかし、起動後すぐにシャットダウンし始めます。を実行するelastic-mapreduce --list
と、そのクラスターの状態は Failed になります。
既知の問題またはどこか間違っていますか? AvailabilityZone が問題を引き起こしている可能性はありますか?
AWS コンソールから確認したところ、このエラーが発生していThe given SSH key name was invalid
ます。確認したところ、config.inc.php で提供したアクセス キーと秘密キーは正しく、機能しています。
よろしく、 カルティケヤ・シンハ
hadoop - AmazonEMRにS3を入力と出力に使用させる
Amazon EMR(0.20.205 MapR)で入力と出力にS3バケットを使用するにはどうすればよいですか?
コア構成xmlファイルに(ブートストラップアクションを介して)以下を追加しようとしました:
しかし、私はいつも次のようなものを手に入れます:
原因:java.io.IOException:パスを解決できませんでした:com.mapr.fs.MapRFileSystem.delete(MapRFileSystem)のcom.mapr.fs.MapRFileSystem.lookupClient(MapRFileSystem.java:219)のs3n:// some_out_bucket / out .java:385)at cc.mrlda.ParseCorpus.run(ParseCorpus.java:192)at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)at cc.mrlda.ParseCorpus.main(ParseCorpus。 java:675)...10以上
ここにHadoop初心者。助けてください!