hadoop - すべてのファイルブロックの Namenode によるメタデータストレージ

Question

本 Hadoop: The Definitive Guide を読んでいるときに、次の行を含むこのページに出くわしました。

ネームノードは、特定のファイルのすべてのブロックが配置されているデータノードも認識していますが、システムの起動時にデータノードからこの情報が再構築されるため、ブロックの場所を永続的に保存することはありません。

これがどのように機能するかを理解するのに苦労しています。たとえば、レプリケーションファクター 3 の 8 ノードクラスターに 1 GB のファイルをコピーするとします。したがって、各データノードには 1 つのブロックがあり、これらのブロックは他のノードにレプリケートされ、各ノードのブロックの総数は事実上 3 になります。 . これで、namenode は各ブロックの位置を含むインデックスを保持することになっています。しかし、テキストによると、 namenode がブロックの場所を永続的に保存しない場合、クラスターがシャットダウンされて再起動された後、それらはどのように再構築されますか。どのブロックがどのファイルに属しているかを知る方法はありません。誰かが私にこれを説明してもらえますか?

score 3 · Accepted Answer

namenode は、ファイルに関するいくつかの状態 (名前、パス、サイズ、ブロックサイズ、ブロック ID など) を保持しますが、ブロックの物理的な場所は保持しません。

データノードが起動すると、dfs データディレクトリを効果的にツリーウォークして、所有するすべてのファイルブロックを検出し、完了すると、ホストするブロックを名前ノードに報告します。

namenode は、ファイルのマップを作成して、各データノードからのレポートから場所をブロックします。

これは、クラスタの初回起動時にセーフモードから復帰するのに数分かかる場合がある理由の 1 つです。多数のファイルがある場合、各データノードがツリーウォークしてブロックを検出するのに数分かかることがあります。ホスト。

score -1 · Accepted Answer

各 fsimage ファイルには、ファイルシステム内のすべてのディレクトリおよびファイル i ノードのシリアル化された形式が含まれています。各 inode は、ファイルまたはディレクトリのメタデータの内部表現であり、ファイルのレプリケーションレベル、変更とアクセス時間、アクセス許可、ブロックサイズ、ファイルを構成するブロックなどの情報が含まれています。ディレクトリの場合、変更時刻、権限、クォータメタデータが保存されます。fsimage ファイルには、ブロックが保存されているデータノードは記録されません。代わりに、namenode はこのマッピングをメモリに保持します。これは、データノードがクラスターに参加するときにブロックリストを要求し、その後定期的に namenode のブロックマッピングが最新であることを確認することによって構築されます。

hadoop - すべてのファイル ブロックの Namenode によるメタデータ ストレージ

2 に答える 2

Related

Reference

hadoop - すべてのファイルブロックの Namenode によるメタデータストレージ