0

次の形式の階層データを含むセミコロン区切りのファイルがあります。

ParentRecord;field1;field3;field4;...;fieldN;
ChildRecordType1;field1;field3;field4;...;fieldN;
...
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
...
ChildRecordTypeN;field1;field3;field4;...;fieldN;

したがって、ファイルごとに複数の親レコードが存在する可能性があり、それらの各レコードには N 個の子レコードを含めることができます。

そこで、私が達成したいのは、親子レコードのブロックを読み取り、それらを Hadoop に適した形式に変換することです。

カスタム FileInputFormat とカスタム RecordReader を実装することでこれを達成できますか? 私は例を見つけようとしていますが、それらはすべて、私が達成しようとしているものではない LineRecord リーダーにつながります

4

0 に答える 0