1

もう1つ、非常に基本的な概念レベルの質問が思い浮かびます。HDFSとさまざまなファイル形式(シーケンスファイル(それに基づくマップファイル)、HARファイル)の違いと関係は何ですか?

答えは、HDFSが基盤ファイルシステムであり、生のバイナリファイルをHDFSにアップロードでき(シーケンスファイルやHARファイルなどを使用せずに)、特別に設計されたファイル形式を使用してに基づいてファイルを書き込むこともできると思います。 HDFS-シーケンスファイル(それに基づくマップファイル)形式、HARファイル形式のように。それは正しい理解ですか?

4

1 に答える 1

4

HDFSはファイルシステムであり、特定のファイル形式に関連付けられていません。これは分散ファイルシステムであり、ファイルが実際にディスク上でどのように永続化されるかについてのほとんどの内部詳細を抽象化します(NFS / FATのように)。これにより、ファイルとディレクトリ構造の継続的なビューが得られますが、内部的には、ファイルは実際に複製され、クラスター内のさまざまなノード間でチャンクに格納されます。

シーケンスファイルのようなファイル形式は、並列処理を可能にするデータノード間で簡単に分割できるため、マップリデュースプログラミングパラダイムに特に適しています。ただし、HDFSにはそのような設定はなく、任意のファイル形式をブロック(つまり、バイナリ/プレーンテキスト)に分割して保存できます。

于 2012-12-01T10:26:38.080 に答える