hadoop - Cloudera Mountable HDFS は重複排除を提供しますか

Question

HDFS ベースのストレージクラスターの実行と、Cloudera リリースを通じてマウント可能な HDFS システムを使用する簡単な方法を検討しています。

最初の質問は、これによりデータの自動重複排除が提供されるかということです。

重複排除が行われるかどうかを尋ねる 2 番目の質問は、すべてのユーザーが特定の重複排除されたブロックを含むファイルを削除した場合、実際にそのブロックをストレージから削除するのか、それともそのユーザーのインデックス/参照だけを削除するのかということです。

最後に、この方法には Rainstor 圧縮方法が含まれますか?

ご意見ありがとうございます

score 1 · Accepted Answer

いいえ、HDFS にはデータの重複排除は含まれていません。

このアーキテクチャは主にシーケンシャルな書き込み/読み取りパターンを最適に使用することに重点を置いているため、私が認識しているすべての重複排除アプローチは一定量のランダム IO パターンを導入するため、重複排除にほとんど反しています。

1 に答える 1