ほとんどの Hadoop ディストリビューションの最新バージョンでは、HDFS の使用状況レポートは、レプリケーション ファクターを考慮せずにスペースを報告しているようですよね?
Namenode Web UI を見たり、「hadoop dfsadmin -report」コマンドを実行したりすると、次のようなレポートが表示されます。
Configured Capacity: 247699161084 (230.69 GB)
Present Capacity: 233972113408 (217.9 GB)
DFS Remaining: 162082414592 (150.95 GB)
DFS Used: 71889698816 (66.95 GB)
DFS Used%: 30.73%
Under replicated blocks: 40
Blocks with corrupt replicas: 6
Missing blocks: 0
このクラスターのマシン サイズに基づくと、このレポートはトリプル レプリケーションを考慮していないようです... IE ファイルを HDFS に配置する場合、トリプル レプリケーションを自分で考慮する必要があります。
たとえば、HDFS に 50GB のファイルを配置した場合、HDFS は危険なほどいっぱいに近くなります (ファイルが 3 回複製され、現在残っている 150GB を使い果たすように見えるため)。