hadoop - Hadoop が特別な MapReduce タスクでファイルを分割しないようにするにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/27238835 2014-12-01T22:51:13.643

83 次

1

Hadoop で処理するファイルがあり、ファイルのサイズが HDFS のブロックサイズよりも小さいことがわかっています。これは、ファイルが分割されないことを保証し、デフォルトのファイルでは分割されないため、InputSplit を記述する必要はありませんか?
SequenceFileOutputFormat (またはその他の出力形式) で保存されたファイルがブロックサイズよりも大きい場合、1 つのキーと値のペアのみで構成されます。これは、ファイルブロックが同じノードに格納され (レプリケートされたコピーを除く)、MapReduce タスクがそれらを取得するために多くの時間を無駄にしないことを意味しますか? これは、キーが分割されない (キーサイズがブロックサイズよりも小さく、キーが 1 つしかない) ため、独自の inputSplit を記述する必要がないことを意味しますか?

0 に答える 0