1

https://jeffreybreen.wordpress.com/2011/01/10/segue-r-to-amazon-elastic-mapreduce-hadoop/segueから使用の簡単な例を再現しようとしました

クラスターの作成は成功しました

> cl <- createCluster(numInstances=2)
STARTING - 2012-05-27 14:02:08
STARTING - 2012-05-27 14:02:39
STARTING - 2012-05-27 14:03:10
STARTING - 2012-05-27 14:03:42
STARTING - 2012-05-27 14:04:13
STARTING - 2012-05-27 14:04:44
STARTING - 2012-05-27 14:05:15
STARTING - 2012-05-27 14:05:46
STARTING - 2012-05-27 14:06:17
BOOTSTRAPPING - 2012-05-27 14:06:48
BOOTSTRAPPING - 2012-05-27 14:07:19
BOOTSTRAPPING - 2012-05-27 14:07:50
BOOTSTRAPPING - 2012-05-27 14:08:21
BOOTSTRAPPING - 2012-05-27 14:08:52
BOOTSTRAPPING - 2012-05-27 14:09:23
BOOTSTRAPPING - 2012-05-27 14:09:55
WAITING - 2012-05-27 14:10:26
Your Amazon EMR Hadoop Cluster is ready for action. 
Remember to terminate your cluster with stopCluster().
Amazon is billing you!

ローカルシミュレーションは問題ありませんでしたが、クラスターで実行すると毎回エラーが返されました。

> myList <- NULL
> set.seed(1)
> for (i in 1:10){
  +   a <- c(rnorm(999), NA)
  +   myList[[i]] <- a
  + }
> outputLocal  <- lapply(myList, mean, na.rm=T)
> outputEmr   <- emrlapply(cl, myList, mean,  na.rm=T)
RUNNING - 2012-05-27 14:11:58
RUNNING - 2012-05-27 14:12:29
RUNNING - 2012-05-27 14:13:00
WAITING - 2012-05-27 14:13:31
Error in lines[[i]] : subgroup is out of range
> stopCluster(cl)

私はこのパッケージのアイデアが好きで、それが私の仕事に役立つことを願っていますが、この基本的な問題を解決する方法を理解することはできません。

segue0.02のバージョン

OS:Ubuntu 11.10

更新:Pi推定の別のサンプルテストケースを実行しようとしましたがemrlapply、同じエラーメッセージが返されました。

UPDATE2:バージョン0.03に更新しましたが、クラスターに接続できませんでした。正常に起動した後、インスタンスは効果なしでシャットダウンしようとしました。AWSconsolを介してインスタンスを終了しました。そのため、古い問題は解決されましたが、新しい問題が発生しました。

> cl <- createCluster(numInstances=2)
STARTING - 2012-06-01 22:36:10
STARTING - 2012-06-01 22:36:41
STARTING - 2012-06-01 22:37:12
STARTING - 2012-06-01 22:37:43
STARTING - 2012-06-01 22:38:14
STARTING - 2012-06-01 22:38:46
SHUTTING_DOWN - 2012-06-01 22:39:17
SHUTTING_DOWN - 2012-06-01 22:39:48
...
SHUTTING_DOWN - 2012-06-01 22:48:05
SHUTTING_DOWN - 2012-06-01 22:48:36
FAILED - 2012-06-01 22:49:07
>
4

1 に答える 1

1

特定のバージョンが呼び出されなかった場合、AmazonはEMRサービスをデフォルトでEMRAMIの1.0バージョンに変更したようです。1月1日以降、動作はデフォルトで最新バージョンになりました。デフォルトを最近のバージョンに変更したとき、S3のサブバケットに出力を入れたいというHadoopの現在の化身に問題がありました。

これらの変更を行うには、JavaAWSAPIコードを最新バージョンにアップグレードする必要がありました。

タールボールの新しいバージョンはここにあります: http ://code.google.com/p/segue/downloads/list または、そのようなことに興味がある場合は、ソースのクローンを作成して自分でビルドすることができます。

この変更により、Segueのインデックスを0.03に設定しました。

編集:m1.smallが問題(32ビット)であることがわかったので、デフォルトを変更し、ユーザーがm1.smallを指定できないように動作を変更しました。新しいバージョンは0.04です。

于 2012-05-30T18:50:13.163 に答える