私はHadoopの初心者です。「疑似分散モード」で正常に動作する単純な Map/Reduce アプリケーションを開発できました。「完全分散モード」でテストしたいと考えています。それに関していくつか質問があります。
- 1 ~ 10 GB のファイル サイズを処理するには、いくつのマシン (ノード) が必要ですか (最小および推奨)?
- ハードウェア要件は何ですか (主に、コア数、メモリ容量、ディスク容量を知りたい)?
Cloudera のハードウェアの推奨事項を確認します: http://www.cloudera.com/blog/2010/03/clouderas-support-team-shares-some-basic-hardware-recommendations/
そのページのスニペット
オリジナルの「ベース」推奨事項を含む、さまざまなワークロードのさまざまなハードウェア構成: