EC2 で Hadoop クラスターをセットアップしていますが、DFS を実行する方法を知りたいです。現在、すべてのデータは s3 にあり、すべての map/reduce アプリケーションは s3 ファイル パスを使用してデータにアクセスしています。今、Amazons EMR がどのように設定されているかを見てきましたが、ジョブフローごとに名前ノードとデータノードが設定されているようです。本当にそのようにする必要があるのか 、それとも s3(n) を DFS として使用できるのか疑問に思っています。もしそうなら、何か欠点はありますか?
ありがとう!