“emr”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

1194 参照

java - EMR - ハイブと Java を一緒に

Amazon Elastic-Map-Reduce を使用しています。Java コードを使用する (Transform 機能を使用して) HIVE クエリを実行することはできますか?

新しいジョブフローを作成するとき、カスタム jar プログラムとハイブプログラムのどちらかを選択する必要がありますが、両方が必要です...

よろしくお願いします！

2012-07-29T00:30:56.210

0 投票する

2 に答える

695 参照

jar - EMR で mahout RecommenderJob を実行する

Amazon EMR で RecommenderJob を実行しようとしています。SmartJukebox.jar (実行不可) という jar があり、クラス main.TrackRecommander が含まれています (それだけです)。

jar を使用してジョブフローを作成しました。

s3n://smartjukebox/SmartJukebox.jar

および引数:

main.TrackRecommander --input s3n://smartjukebox/ratings.csv --output s3n://smartjukebox/output --usersFile s3n://smartjukebox/user.txt.

クラス TrackRecommander はクラス RecommenderJob を使用します。

ジョブフローを実行すると、エラーログにこれが表示されます -

スレッド「メイン」の例外 java.lang.NoClassDefFoundError: org/apache/mahout/cf/taste/hadoop/item/RecommenderJob at main.TrackRecommander.main(TrackRecommander.java:136) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native) Method) で sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:39) で sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25) で java.lang.reflect.Method.invoke(Method.java:597) でorg.apache.hadoop.util.RunJar.main(RunJar.java:156) 原因: java.lang.ClassNotFoundException: org.apache.mahout.cf.taste.hadoop.item.RecommenderJob at java.net.URLClassLoader$1. java.security.AccessController.doPrivileged(Native Method) で (URLClassLoader.java:202) を実行し、java.net.URLClassLoader.findClass(URLClassLoader.java:190) at java.lang.ClassLoader.loadClass(ClassLoader.java:306) at java.lang.ClassLoader.loadClass(ClassLoader.java:247) ... 6 もっと見る

JVM が RecommenderJob を見つけることができず、RecommenderJob を jar に入れていないことがわかりました。EMR には mahout jar が組み込まれていると思いましたが、それについては何も見つかりません。

ここでの解決策は何ですか？

ありがとう。

jar mahout amazon-emr emr

2012-07-29T11:00:33.387

0 投票する

1 に答える

1124 参照

python - EMRのMRJobにモジュールをインポートします

簡単な質問：メインのMRJobスクリプトで必要ないくつかの変数を定義するモジュールheaders.pyがあります。私はで仕事を実行できるはずです

次に、私のMRJobスクリプト（MRMyJob）で、次のように機能するはずです。

右？mrjob --helpページから：「-file=UPLOAD_FILESファイルをこのスクリプトの作業ディレクトリにコピーします。-fileは複数回使用できます。」

インポートしようとすると、まだ「ヘッダーという名前のモジュールがありません」というメッセージが表示されます。

python hadoop emr mrjob

2012-07-31T14:20:23.850

0 投票する

2 に答える

2761 参照

amazon-s3 - EMR を使用して異なるアカウント間で dynamoDB テーブルをコピーする

ある DynamoDB アカウントに、別のアカウントに転送したい情報のテーブルが多数あります。http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.htmlのように、EMR を使用して 1 つのアカウント内でテーブルをコピーできることがわかりましたが、異なるアカウント間で転送する方法はありますか?

amazon-s3 amazon-dynamodb amazon-emr emr

2012-07-31T23:50:20.723

0 投票する

1 に答える

615 参照

hadoop - Amazon EMR JSON

ビッグデータ処理に Amazon EMR Hadoop Hive を使用しています。ログファイルの現在のデータは CSV 形式です。ログファイルからテーブルを作成するために、データを解析して外部テーブルの異なる列に保存する正規表現を作成しました。SerDe を使用して JSON 形式のデータを読み取ることができることはわかっています。これは、ログファイルの各行を JSON オブジェクトとして扱うことができることを意味します。ログファイルが CSV 形式と比較して JSON 形式である場合、Hadoop のパフォーマンス上の利点はありますか。

hadoop amazon hive emr

2012-08-01T07:52:19.963

0 投票する

1 に答える

3040 参照

amazon-web-services - s3 からハイブへの圧縮 (lzo) データのインポート

バックアップの手段として (EMR 経由で) DynamoDB テーブルを s3 にエクスポートします。エクスポートするときは、データを lzo 圧縮ファイルとして保存します。私のハイブクエリは以下のとおりですが、基本的にはhttp://docs.amazonwebservices.com/amazondynamodb/latest/developerguide/EMR_Hive_Commands.htmlの「データ圧縮を使用して Amazon DynamoDB テーブルを Amazon S3 バケットにエクスポートするには」に従いました。

逆のことをしたいのですが、LZOファイルを取得して、それらをハイブテーブルに戻します。これどうやってやるの？入力用のハイブ構成プロパティが表示されることを期待していましたが、ありません。私はググっていくつかのヒントを見つけましたが、決定的なものも機能するものもありません。

s3 のファイルの形式は次のとおりです: s3://[mybucket]/backup/year=2012/month=08/day=01/000000.lzo

エクスポートを行う HQL は次のとおりです。

s3から取得し、解凍して、ハイブテーブルに入れる方法はありますか??

amazon-web-services hive elastic-map-reduce emr lzo

2012-08-10T17:01:18.487

0 投票する

1 に答える

2757 参照

amazon-s3 - EMR ファイルを 1 つに結合する方法は?

大きなバイナリファイルを (2Gb) チャンクに分割し、Amazon S3 にアップロードしました。今、それを 1 つのファイルに結合して、カスタムで処理したい

走ってみた

しかし、ローカル端末への -cat 出力データが原因で失敗しました - リモートでは動作しません...

どうすればこれを行うことができますか？

PS私は猫をストリーミングMRジョブとして実行しようとしました:

この仕事は無事に終わりました。しかし。dir/in に 3 つのファイルパーツがありましたが、現在は /dir/out に 6 つのパーツがあります。

そして、私の出力の一部ではないファイル_SUCCESS ofcource...

そう。ファイルの前に分割された結合方法は?

amazon-s3 amazon-web-services hadoop-streaming amazon-emr emr

2012-08-21T13:10:55.760

0 投票する

2 に答える

1165 参照

hive - インスタンス数を増やしても Hive クエリの速度が上がらない理由

Amazon の Elastic MapReduce で Hive を使用してテーブルを作成し、データをインポートしてパーティション分割しました。ここで、テーブルフィールドの 1 つから最も頻繁に使用される単語をカウントするクエリを実行します。

1 つのマスターインスタンスと 2 つのコアインスタンスがあり、計算に 180 秒かかったときに、そのクエリを実行しました。次に、1 つのマスターと 10 のコアを持つように再構成しましたが、これも 180 秒かかりました。なぜ速くしないのですか？

2 コアと 10 コアで実行すると、ほぼ同じ出力が得られます。

hive elastic-map-reduce amazon-emr emr

2012-08-25T19:46:34.230

0 投票する

2 に答える

3204 参照

php - Amazon AWS PHP SDK - クラスターの起動に失敗しました - 指定された SSH キー名が無効でした

クラスターを起動してジョブフローにジョブを追加するための PHP ページを作成しようとしています。

クラスターが起動され、ジョブフロー ID が表示されます。しかし、起動後すぐにシャットダウンし始めます。を実行するelastic-mapreduce --listと、そのクラスターの状態は Failed になります。

既知の問題またはどこか間違っていますか? AvailabilityZone が問題を引き起こしている可能性はありますか?

AWS コンソールから確認したところ、このエラーが発生していThe given SSH key name was invalid ます。確認したところ、config.inc.php で提供したアクセスキーと秘密キーは正しく、機能しています。

よろしく、カルティケヤ・シンハ

php amazon-web-services emr

2012-08-30T10:51:33.003

0 投票する

1 に答える

844 参照

hadoop - AmazonEMRにS3を入力と出力に使用させる

Amazon EMR（0.20.205 MapR）で入力と出力にS3バケットを使用するにはどうすればよいですか？

コア構成xmlファイルに（ブートストラップアクションを介して）以下を追加しようとしました：

しかし、私はいつも次のようなものを手に入れます：

原因：java.io.IOException：パスを解決できませんでした：com.mapr.fs.MapRFileSystem.delete（MapRFileSystem）のcom.mapr.fs.MapRFileSystem.lookupClient（MapRFileSystem.java:219）のs3n：// some_out_bucket / out .java：385）at cc.mrlda.ParseCorpus.run（ParseCorpus.java:192）at org.apache.hadoop.util.ToolRunner.run（ToolRunner.java:65）at cc.mrlda.ParseCorpus.main（ParseCorpus。 java：675）...10以上

ここにHadoop初心者。助けてください！

hadoop amazon-web-services amazon emr mapr

2012-09-03T14:20:35.660

問題タブ [emr]

Reference