hadoop - Amazon EC2 および S3: データを読み書きする方法

Question

私はこのガイドに従っています: http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-clusterを使用して Amazon EC2 にクラスターをセットアップします。 Hadoop と hbase が実行されています。

私が今疑問に思っているのは、クラスターで実行されている hbase で実際にデータを取得するにはどうすればよいかということです。S3 にロードしてから hbase クラスターにロードする必要がありますか?

データの読み込み/抽出のベストプラクティスはありますか? 私はEC2が初めてなので、どんな種類のポインタもいただければ幸いです。

score 4 · Accepted Answer

ノードの1つにSSHを接続し、次のような方法でデータをHDFSにコピーできます。

hadoop fs -copyFromLocal data / sample_rdf.nt input / sample_rdf.nt

これにより、ファイルがローカルマシンからHDFSにコピーされます。もちろん、それはあなたがすでにあなたのマシンにファイルを持っていることを前提としているので、最初にそれをEC2にアップロードするか、EC2ノードにどこかからそれをダウンロードさせる必要があります。

ノードを破棄する頻度と、後で使用できるようにファイルを保持するかどうかによっては、代わりにファイルをS3にアップロードし、s3cmdを使用してS3からマシンにコピーするのが理にかなっています。

（パートIIIで、あなたが従ったそのチュートリアルにはさらにいくつかの例があります。）

1 に答える 1