1

Amazon の EMR FAQ から:

Q: インターネットや Amazon S3 以外の場所からデータをロードできますか?

はい。Hadoop アプリケーションは、インターネット上のどこからでも、または他の AWS サービスからデータをロードできます。インターネットからデータをロードする場合、EC2 帯域幅料金が適用されることに注意してください。Amazon Elastic MapReduce は、DynamoDB のデータへの Hive ベースのアクセスも提供します。

外部 (非 S3) ソースからデータをロードするための仕様は何ですか? このオプションに関するリソースが不足しているようで、いかなる形でも文書化されていないようです。

4

3 に答える 3

2

「Hadoop 方式」で実行したい場合は、データ ソースに DFS を実装するか、MR ジョブの入力となるファイルにソース URL への参照を配置する必要があります。
同時に、hadoop はコードをデータに移動することです。S3 を介した EMR でさえ、この観点では理想的ではありません。EC2 と S3 は異なるクラスターです。そのため、データソースが物理的にデータセンターの外にある場合、効果的な MR 処理を想像するのは困難です。

于 2012-06-06T21:24:17.060 に答える
0

Java 用の Cassandra パッケージにはorg.apache.cassandra.hadoopという名前のソース パッケージが 1 つあり、AWS Elastic MapReduce を実行しているときに Cassandra から情報を取得するために必要な 2 つのクラスがあることを知っています。

必須クラス:ColumnFamilyInputFormat.javaおよびConfigHelper.java

このリンクにアクセスして、私が話していることの例を確認してください。

于 2012-12-12T12:35:20.950 に答える
0

基本的に、コードを介してインターネットやその他のソースのコンテンツにプログラムでアクセスできると Amazon が言っていることです。たとえば、任意の HTTP ベースのクライアント API を介して Couch データベース インスタンスにアクセスできます。

于 2012-06-19T20:48:03.110 に答える