amazon-ec2 - s3 を fs.default.name または HDFS として使用していますか?

Question

EC2 で Hadoop クラスターをセットアップしていますが、DFS を実行する方法を知りたいです。現在、すべてのデータは s3 にあり、すべての map/reduce アプリケーションは s3 ファイルパスを使用してデータにアクセスしています。今、Amazons EMR がどのように設定されているかを見てきましたが、ジョブフローごとに名前ノードとデータノードが設定されているようです。本当にそのようにする必要があるのか、それとも s3(n) を DFS として使用できるのか疑問に思っています。もしそうなら、何か欠点はありますか？

ありがとう！

score 5 · Accepted Answer

HDFS の代わりに S3 を使用するには、core-site.xml の fs.name.default でバケットを指定する必要があります。

<property>
        <name>fs.default.name</name>
        <value>s3n://your-bucket-name</value>
</property>

S3N は他のアプリケーションや自分で読み取ることができるため、単純な S3 実装ではなく S3N を使用することをお勧めします:)

また、同じ core-site.xml ファイルで、次のプロパティを指定する必要があります。

fs.s3n.awsAccessKeyId
fs.s3n.awsSecretAccessKey

fs.s3n.awsSecretAccessKey

score 1 · Accepted Answer

ジョブの中間データはすべて HDFS に送られるため、そうです、まだ namenode と datanodes が必要です

score 1 · Accepted Answer

https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/core-default.xml

fs.default.name は推奨されておらず、おそらく fs.defaultFS の方が優れています。

amazon-ec2 - s3 を fs.default.name または HDFS として使用していますか?

4 に答える 4

Related

Reference