HDFS にはディスク容量の制約があり、それがバックアップとストレージ戦略を制約していたため、実際には少し前にこれを行いました。そのため、HDFS の代わりに S3N を使用することについて話し合いましたが、これはかなり標準的な操作のようです。
hadoop-site.xml または hdfs-site.xml に次のプロパティを追加する必要があります。
<property>
<name>fs.default.name</name>
<value>s3://BUCKET</value>
</property>
<property>
<name>fs.s3.awsAccessKeyId</name>
<value>ID</value>
</property>
<property>
<name>fs.s3.awsSecretAccessKey</name>
<value>SECRET</value>
</property>
設定の詳細については、こちらをご覧ください。興味深いことに、この場合、データは Amazon S3 に保存されているため、データはもはやローカルではないためフェッチする必要がありますが、パフォーマンスへの影響は、最初に恐れていたほど大きくないようです。
私が試したことはありませんが、HDFS の代替手段として必ず確認する必要があるのは、QFS from Quantcast です。これについては良いことを聞いていて、ベンチマークでは HDFS よりも高速になっているようです。