hadoop - Hadoop スナップショット機能について

Question

Hadoop スナップショットのメカニズムを理解しようとしています ( http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html )。残念ながら、公式サイト apache の情報は非常に限られているため、ここにメッセージを投稿してください。

Hadoop クラスターでこの機能を試しました。スナップショットを取得する前に、hdfs dfsadmin -reportユーティリティを使用しようとします:

[hdfs@bda11node01 ~]$ hdfs dfsadmin -report
...
DFS Used: 15521319604094 (14.12 TB)

durrectory のスナップショットを作成し、サブディレクトリ/tmpを取得します。

[hdfs@bda11node01 ~]$ hadoop fs -du -s -h  /tmp/.snapshot/snap3
5.1 T  /tmp/.snapshot/snap3

まず驚いたのは、スナップショットのサイズと、このスナップショットを撮るのにかかった時間です。時間はすぐでした、サイズは同じでした。次に驚いたのは、hdfs ユーティリティからのレポートです。

[hdfs@bda11node01 ~]$ hdfs dfsadmin -report
    ...
    DFS Used: 15521319604094 (14.12 TB)

この後、/tmp dir から 1 つのサブディレクトリをドロップしてリカバリを実行します...このディレクトリはリカバリされました...しかし、方法がわかりません。誰かが詳細を説明できますか? ありがとう！

score 2 · Accepted Answer

HDFS スナップショットは、新しいスナップショットのために事前にデータをコピーすることはなく、ソーススナップショット (より正確には inode 内の新しいレコード) へのポインターだけであるという点で、構造共有を伴う永続的なデータ構造に似ています。データを記録する変更 (HDFS の追加と切り捨て) のみ。これは、多くのスナップショットの実装で使用される Copy on Write (COW) に似ています。

この作業は JIRA HDFS-2802で行われ、HDFS 設計ドキュメント自体を含む設計についてよく議論されています。*NB: 議論されている RW スナップショットはまだ実装されていません。

hadoop - Hadoop スナップショット機能について

1 に答える 1

Related

Reference