hadoop - テキストファイルからシーケンスファイルに変換するにはどうすればよいですか？

Question

効率を上げるために（hadoop）シーケンス形式に変換する必要があるレコードの大きな.txtファイルがあります。私はこれに対するいくつかの答えをオンラインで見つけました（.txtファイルをHadoopのシーケンスファイル形式に変換する方法など）が、私はhadoopに不慣れであり、それらを本当に理解していません。これらをもう少し説明できれば、または別の解決策があれば、それは素晴らしいことです。それが役立つ場合は、レコードは行で区切られます。

前もって感謝します。

score 1 · Accepted Answer

Hadoopを初めて使用するとおっしゃっていましたが、との基本的な考え方を知っていますMapperかReducer？どちらにもKEY_IN_CLASS、VALUE_IN_CLASS、KEY_OUT_CLASS、VALUE_OUT_CLASSがあるため、この場合、マッパーを使用して変換を行うことができます。

KEY_IN_CLASSの場合、デフォルトを使用できますLongWritable。

クラスはテキスト入力を処理するためText、VALUE_IN_CLASSを使用する必要があります。Text

KEY_OUT_CLASSの場合は、を使用できNullWritableます。特定のキーがない場合はnullキーです。

VALUE_OUT_CLASSには、を使用しますSequenceFileOutputFormat。

を使用するにはSequenceFileOutputFormat、使用するキークラスと値クラスをSequenceFileOutputFormatに通知する必要があると思います。

hadoop - テキストファイルからシーケンスファイルに変換するにはどうすればよいですか？

1 に答える 1

Related

Reference