ParquetOutputFormat
クラスを使用して、既存の csv ファイルを寄木細工に変換する Java コードを作成できます。Parquetの実装については、こちらをご覧ください。
コードは次のようになります。
public static void main(String[] args) throws IOException,
InterruptedException, ClassNotFoundException {
Configuration conf = new Configuration();
Job job = new Job(conf);
job.setJobName("CSV to Parquet");
job.setJarByClass(Mapper.class);
job.setMapperClass(Mapper.class);
job.setReducerClass(Reducer.class);
job.setNumReduceTasks(1);
job.setOutputKeyClass(LongWritable.class);
job.setOutputValueClass(Text.class);
job.setOutputFormatClass(ParquetOutputFormat.class);
job.setInputFormatClass(TextInputFormat.class);
TextInputFormat.addInputPath(job, new Path("/csv"));
ParquetOutputFormat.setOutputPath(job, new Path("/parquet"));
job.waitForCompletion(true);
}
/csv
csv ファイルへ/parquet
の HDFS パスであり、新しい寄木細工ファイルへの HDFS パスです。
ソース