Amazon EMR を使用していますが、ほとんどのジョブを正常に実行できます。EMR クラスター内でより多くのデータの読み込みと生成を開始すると、問題が発生します。クラスターのストレージ容量が不足しています。
各データノードは c1.medium インスタンスです。こことここのリンクによると、各データ ノードには 350 GB のインスタンス ストレージが必要です。ElasticMapReduce Slave セキュリティ グループを介して、AWS コンソールで c1.medium データ ノードが実行中で、インスタンス ストアであることを確認できました。
namenode で hadoop dfsadmin -report を実行すると、各データ ノードには約 10 GB のストレージがあります。これは、df -h を実行することでさらに検証されます
hadoop@domU-xx-xx-xx-xx-xx:~$ df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 9.9G 2.6G 6.8G 28% /
tmpfs 859M 0 859M 0% /lib/init/rw
udev 10M 52K 10M 1% /dev
tmpfs 859M 4.0K 859M 1% /dev/shm
350 GB のフル ストレージで起動するようにデータ ノードを構成するにはどうすればよいですか? ブートストラップアクションを使用してこれを行う方法はありますか?