レプリケート ファクター セットに対してデータ ノード数が少ないため、レプリケート不足のブロックとレプリケートされていないブロックの両方が発生することがわかっています。
しかし、それらの違いは何ですか?
使用可能なデータ ノードが 1 の場合にレプリケーション ファクターを 1 に再設定すると、複製不足のブロックとレプリカの欠落エラーの両方がクリアされました。コマンドhdfs fsck /を実行してこれを確認しました
Tom White 著「Hadoop: The Definitive Guide」より:
過剰複製ブロック これらは、属するファイルのターゲット複製を超えるブロックです。通常、過剰な複製は問題ではなく、HDFS は過剰な複製を自動的に削除します。
レプリケートされていないブロック これらは、所属するファイルのターゲット レプリケーションを満たしていないブロックです。HDFS は、レプリケートされていないブロックがターゲット レプリケーションに達するまで、レプリケートされていないブロックの新しいレプリカを自動的に作成します。hdfs dfsadmin -metasave を使用して、レプリケートされている (またはレプリケートされるのを待っている) ブロックに関する情報を取得できます。
誤って複製されたブロック これらは、ブロック レプリカの配置ポリシーを満たさないブロックです (「レプリカの配置」を参照)。たとえば、マルチラック クラスタのレプリケーション レベルが 3 の場合、ブロックの 3 つのレプリカすべてが同じラックにある場合、回復力のためにレプリカを少なくとも 2 つのラックに分散させる必要があるため、ブロックは誤ってレプリケートされます。HDFS は、誤ってレプリケートされたブロックを自動的に再レプリケートして、ラック配置ポリシーを満たすようにします。
破損ブロック これらは、レプリカがすべて破損しているブロックです。少なくとも 1 つの破損していないレプリカを含むブロックは、破損していると報告されません。namenode は、ターゲットの複製が満たされるまで、破損していない複製を複製します。
レプリカの欠落 これらは、クラスタ内のどこにもレプリカがないブロックです。
これがあなたの質問に答えることを願っています。