Hadoop で処理するファイルがあり、ファイルのサイズが HDFS のブロック サイズよりも小さいことがわかっています。これは、ファイルが分割されないことを保証し、デフォルトのファイルでは分割されないため、InputSplit を記述する必要はありませんか?
SequenceFileOutputFormat (またはその他の出力形式) で保存されたファイルがブロック サイズよりも大きい場合、1 つのキーと値のペアのみで構成されます。これは、ファイル ブロックが同じノードに格納され (レプリケートされたコピーを除く)、MapReduce タスクがそれらを取得するために多くの時間を無駄にしないことを意味しますか? これは、キーが分割されない (キー サイズがブロック サイズよりも小さく、キーが 1 つしかない) ため、独自の inputSplit を記述する必要がないことを意味しますか?