0

効率を上げるために(hadoop)シーケンス形式に変換する必要があるレコードの大きな.txtファイルがあります。私はこれに対するいくつかの答えをオンラインで見つけました(.txtファイルをHadoopのシーケンスファイル形式に変換する方法など)が、私はhadoopに不慣れであり、それらを本当に理解していません。これらをもう少し説明できれば、または別の解決策があれば、それは素晴らしいことです。それが役立つ場合は、レコードは行で区切られます。

前もって感謝します。

4

1 に答える 1

1

Hadoopを初めて使用するとおっしゃっていましたが、との基本的な考え方を知っていますMapperReducer?どちらにもKEY_IN_CLASS、VALUE_IN_CLASS、KEY_OUT_CLASS、VALUE_OUT_CLASSがあるため、この場合、マッパーを使用して変換を行うことができます。

KEY_IN_CLASSの場合、デフォルトを使用できますLongWritable

クラスはテキスト入力を処理するためText、VALUE_IN_CLASSを使用する必要があります。Text

KEY_OUT_CLASSの場合は、を使用できNullWritableます。特定のキーがない場合はnullキーです。

VALUE_OUT_CLASSには、を使用しますSequenceFileOutputFormat

を使用するにはSequenceFileOutputFormat、使用するキークラスと値クラスをSequenceFileOutputFormatに通知する必要があると思います。

于 2012-06-22T14:50:08.780 に答える