hadoop - RCFIle 形式ファイルの Hadoop NullWritable

Question

Hadoop の NullWritable の概念がよくわかりませんでした。それは何のために使用され、なぜRCFileフォーマット aNullWritable.classおよび outputValueClass a の outputKeyClass なのBytesRefArrayWritable.classですか?

score 2 · Accepted Answer

これは、RCFiles のキーがないためです。CSV などのプレーンテキストファイルから読み取る場合、キーは通常、ファイルへのバイトオフセットです。RCFile は列形式のストレージ形式であるため、行は異なる列セットに断片化されているため、行を識別するために使用できるキーは実際にはありません。 NullWritableあくまでも手段ignore this valueです。

score 1 · Accepted Answer

「MapReduce の Map 関数と Reduce 関数はどちらも、(キー、値) ペアで構造化されたデータに関して定義されています」(ウィキペディア)。

これは、データが (キー、値) ペアで構造化されている必要があることを意味します。Nullただし、キーを使用する必要がなく、キーがを実装する必要があるため、キーをに設定できない場合もありますWritableComparable。そのため、Hadoop はNullWritableクラスを作成しました。

hadoop - RCFIle 形式ファイルの Hadoop NullWritable

2 に答える 2

Related

Reference