HDFS の avro ファイルでシリアル化された Avro レコードを読み取る必要があります。これを行うには、AvroKeyInputFormat を使用して、マッパーが読み取りレコードをキーとして操作できるようにします。
私の質問は、分割サイズをどのように制御できますか? テキスト入力形式では、サイズをバイト単位で定義します。ここで、すべての分割を構成するレコード数を定義する必要があります。
入力ディレクトリ内のすべてのファイルを 1 つの大きなファイルのように管理したいと考えています。CombineFileInputFormat を使用する必要がありますか? Avroで使用できますか?