効率を上げるために(hadoop)シーケンス形式に変換する必要があるレコードの大きな.txtファイルがあります。私はこれに対するいくつかの答えをオンラインで見つけました(.txtファイルをHadoopのシーケンスファイル形式に変換する方法など)が、私はhadoopに不慣れであり、それらを本当に理解していません。これらをもう少し説明できれば、または別の解決策があれば、それは素晴らしいことです。それが役立つ場合は、レコードは行で区切られます。
前もって感謝します。
効率を上げるために(hadoop)シーケンス形式に変換する必要があるレコードの大きな.txtファイルがあります。私はこれに対するいくつかの答えをオンラインで見つけました(.txtファイルをHadoopのシーケンスファイル形式に変換する方法など)が、私はhadoopに不慣れであり、それらを本当に理解していません。これらをもう少し説明できれば、または別の解決策があれば、それは素晴らしいことです。それが役立つ場合は、レコードは行で区切られます。
前もって感謝します。
Hadoopを初めて使用するとおっしゃっていましたが、との基本的な考え方を知っていますMapper
かReducer
?どちらにもKEY_IN_CLASS、VALUE_IN_CLASS、KEY_OUT_CLASS、VALUE_OUT_CLASSがあるため、この場合、マッパーを使用して変換を行うことができます。
KEY_IN_CLASSの場合、デフォルトを使用できますLongWritable
。
クラスはテキスト入力を処理するためText
、VALUE_IN_CLASSを使用する必要があります。Text
KEY_OUT_CLASSの場合は、を使用できNullWritable
ます。特定のキーがない場合はnullキーです。
VALUE_OUT_CLASSには、を使用しますSequenceFileOutputFormat
。
を使用するにはSequenceFileOutputFormat
、使用するキークラスと値クラスをSequenceFileOutputFormatに通知する必要があると思います。