こんにちは、hadoop 環境をセットアップしようとしています。要するに、私が解決しようとしている問題には、サイズが数 MB の数十億の XML ファイルが含まれており、HIVE を使用してそれらから関連情報を抽出し、その情報を使用して分析作業を行います。これは Hadoop の世界では些細な問題であることはわかっていますが、Hadoop ソリューションがうまく機能する場合、処理するファイルのサイズと数よりも幾何学的なプロジェクション形式で増加します。
「Hadoop 決定版ガイド」「Hadoop in action」など、いろいろな本を参考にして調べました。yahoo や hortonworks によるドキュメントなどのリソース。Hadoop環境を構築するためのハードウェア/ソフトウェアの仕様がわかりません。これまでに参照したリソースでは、次のような標準的なソリューションを見つけました
- Namenode/JobTracker (2 x 1Gb/s イーサネット、16 GB の RAM、4 x CPU、100 GB ディスク)
- Datanode (2 x 1Gb/s イーサネット、8 GB の RAM、4 x CPU、合計
500 GB 以上の複数のディスク)
しかし、誰かが素晴らしい提案をすることができれば。ありがとう