amazon-web-services - Elastic MapReduce の外部データソースの構成

Question

現在の DB の上で Amazon Elastic MapReduce を使用したいと考えています (EC2 で Cassandra を使用しています)。Amazon EMR FAQ を見ると、可能であるはずです: Amazon EMR FAQ: Q: インターネットまたは Amazon S3 以外の場所からデータをロードできますか?

ただし、新しいジョブフローを作成する場合、S3 バケットのみを入力データのオリジンとして構成できます。

これを行う方法に関するアイデア/サンプルはありますか?

ありがとう！

PS: Elastic MapReduce で外部データを使用する方法に関するこの質問を見たことがありますが、答えはそれを行う/構成する方法を実際には説明していません。単にそれが可能であるというだけです。

score 0 · Accepted Answer

scpを使用してファイルを EMR インスタンスにコピーしてみてください。

    my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file

(または、ftp、またはwget、またはcurl、またはその他の必要なものを使用します)

次に、 sshを使用して EMR インスタンスにログインし、hadoopにロードします。

    my-desktop-box$ ssh my-emr-node
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file

amazon-web-services - Elastic MapReduce の外部データ ソースの構成