1

EC2 で Hadoop クラスターをセットアップしていますが、DFS を実行する方法を知りたいです。現在、すべてのデータは s3 にあり、すべての map/reduce アプリケーションは s3 ファイル パスを使用してデータにアクセスしています。今、Amazons EMR がどのように設定されているかを見てきましたが、ジョブフローごとに名前ノードとデータノードが設定されているようです。本当にそのようにする必要があるのか​​ 、それとも s3(n) を DFS として使用できるのか疑問に思っています。もしそうなら、何か欠点はありますか?

ありがとう!

4

4 に答える 4

5

HDFS の代わりに S3 を使用するには、core-site.xml の fs.name.default でバケットを指定する必要があります。

<property>
        <name>fs.default.name</name>
        <value>s3n://your-bucket-name</value>
</property>

S3N は他のアプリケーションや自分で読み取ることができるため、単純な S3 実装ではなく S3N を使用することをお勧めします:)

また、同じ core-site.xml ファイルで、次のプロパティを指定する必要があります。

  • fs.s3n.awsAccessKeyId
  • fs.s3n.awsSecretAccessKey

fs.s3n.awsSecretAccessKey

于 2011-08-25T21:24:58.660 に答える
1

ジョブの中間データはすべて HDFS に送られるため、そうです、まだ namenode と datanodes が必要です

于 2011-06-15T04:21:00.263 に答える
1

https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/core-default.xml

fs.default.name は推奨されておらず、おそらく fs.defaultFS の方が優れています。

于 2016-11-08T11:35:04.423 に答える