4

私はこのガイドに従っています: http://rogueleaderr.tumblr.com/post/32768181371/set-up-and-run-a-fully-distributed-hadoop-hbase-clusterを使用して Amazon EC2 にクラスターをセットアップします。 Hadoop と hbase が実行されています。

私が今疑問に思っているのは、クラスターで実行されている hbase で実際にデータを取得するにはどうすればよいかということです。S3 にロードしてから hbase クラスターにロードする必要がありますか?

データの読み込み/抽出のベスト プラクティスはありますか? 私はEC2が初めてなので、どんな種類のポインタもいただければ幸いです。

4

1 に答える 1

4

ノードの1つにSSHを接続し、次のような方法でデータをHDFSにコピーできます。

hadoop fs -copyFromLocal data / sample_rdf.nt input / sample_rdf.nt

これにより、ファイルがローカルマシンからHDFSにコピーされます。もちろん、それはあなたがすでにあなたのマシンにファイルを持っていることを前提としているので、最初にそれをEC2にアップロードするか、EC2ノードにどこかからそれをダウンロードさせる必要があります。

ノードを破棄する頻度と、後で使用できるようにファイルを保持するかどうかによっては、代わりにファイルをS3にアップロードし、s3cmdを使用してS3からマシンにコピーするのが理にかなっています。

(パートIIIで、あなたが従ったそのチュートリアルにはさらにいくつかの例があります。)

于 2013-01-02T19:53:12.163 に答える