hadoop - Hadoop 変換と階層テキストファイルの読み込み

翻译自：https://stackoverflow.com/questions/19549044 2013-10-23T17:59:42.590

148 次

次の形式の階層データを含むセミコロン区切りのファイルがあります。

ParentRecord;field1;field3;field4;...;fieldN;
ChildRecordType1;field1;field3;field4;...;fieldN;
...
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
ChildRecordType3;field1;field3;field4;field5;field6;...;fieldN;
...
ChildRecordTypeN;field1;field3;field4;...;fieldN;

したがって、ファイルごとに複数の親レコードが存在する可能性があり、それらの各レコードには N 個の子レコードを含めることができます。

そこで、私が達成したいのは、親子レコードのブロックを読み取り、それらを Hadoop に適した形式に変換することです。

カスタム FileInputFormat とカスタム RecordReader を実装することでこれを達成できますか? 私は例を見つけようとしていますが、それらはすべて、私が達成しようとしているものではない LineRecord リーダーにつながります

hadoop - Hadoop 変換と階層テキスト ファイルの読み込み

0 に答える 0

Related

Reference

hadoop - Hadoop 変換と階層テキストファイルの読み込み