次の形式の階層データを含むセミコロン区切りのファイルがあります。
ParentRecord;field1;field3;field4;...;fieldN;
ChildRecordType1;field1;field3;field4;...;fieldN;
...
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
...
ChildRecordTypeN;field1;field3;field4;...;fieldN;
したがって、ファイルごとに複数の親レコードが存在する可能性があり、それらの各レコードには N 個の子レコードを含めることができます。
そこで、私が達成したいのは、親子レコードのブロックを読み取り、それらを Hadoop に適した形式に変換することです。
カスタム FileInputFormat とカスタム RecordReader を実装することでこれを達成できますか? 私は例を見つけようとしていますが、それらはすべて、私が達成しようとしているものではない LineRecord リーダーにつながります