hadoop - 無害なバイナリデータで Hadoop ストリーミングを使用する

翻译自：https://stackoverflow.com/questions/14732305 2013-02-06T15:13:00.230

212 次

Hadoop ストリーミングマップのみのジョブを使用して、Unix フィルターを介して HDFS ファイルをパイプ処理するスクリプトを作成しようとしています。入力の分割は気にしません。ファイルはすべて圧縮されています。私はキーと値のペアを気にしません。また、Hadoop が出力に貼り付けたいタブを取り除くのにかなりの時間を費やしています。私は単純な生のバイナリデータの入出力を好みますが、UTF-8 テキストまたは類似の行を扱うこともできます。

typedbytesなどを使用して、mapreduce.output.textoutputformat.separatorとのさまざまな設定を試しましたが、タブが消えません。何か案は？stream.map.output.field.separator

それが違いを生む場合、YARN（MRv2）でCDH 4.1を使用しています。

hadoop - 無害なバイナリ データで Hadoop ストリーミングを使用する

0 に答える 0

Related

Reference

hadoop - 無害なバイナリデータで Hadoop ストリーミングを使用する