ストリーミング マップ削減ジョブがあります。処理用のスロットが 30 ほどあります。最初に、60 レコード (フィールドはタブ区切り) を含む単一の入力ファイルを取得します。すべてのレコードの最初のフィールドは数値で、最初のレコード番号 (最初のフィールド) は 1、2 番目のレコード番号 (最初のフィールド) は 2 などです。 . 処理の次のステップのために、これらのレコードから 30 個のファイルを作成したいと考えています。それぞれに 2 つのレコードが含まれています (均等な分布)。
これが機能するために、hadoop ジョブにレデューサーの数を 30 と指定しました。最初のフィールドがキーとして使用され、それぞれ 2 つのレコードを含む 30 個の出力ファイルが得られると予想しました。
30 個の出力ファイルを取得できますが、すべてが同じ数のレコードを含むわけではありません。一部のファイルは空 (ゼロ サイズ) です。何か案が