10

現在の DB の上で Amazon Elastic MapReduce を使用したいと考えています (EC2 で Cassandra を使用しています)。Amazon EMR FAQ を見ると、可能であるはずです: Amazon EMR FAQ: Q: インターネットまたは Amazon S3 以外の場所からデータをロードできますか?

ただし、新しいジョブ フローを作成する場合、S3 バケットのみを入力データのオリジンとして構成できます。

これを行う方法に関するアイデア/サンプルはありますか?

ありがとう!

PS: Elastic MapReduce で外部データを使用する方法に関するこの質問を見たことがありますが、答えはそれを行う/構成する方法を実際には説明していません。単にそれが可能であるというだけです。

4

2 に答える 2

0

scpを使用してファイルを EMR インスタンスにコピーしてみてください。

    my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file

(または、ftp、またはwget、またはcurl、またはその他の必要なものを使用します)

次に、 sshを使用して EMR インスタンスにログインし、hadoopにロードします。

    my-desktop-box$ ssh my-emr-node
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file
于 2013-03-27T05:53:33.923 に答える