0

マップ縮小ジョブを実行しています。単一ノードクラスターであるマシンで実行すると、出力は次のようになります

hduser@nikhil-VirtualBox:/usr/local/hadoop/hadoop-1.0.4$ bin/hadoop dfs -text /user/hduser/output16/part-r-00000
0   Required Genotype column (s), Must not contain NULLS for required fields, failed, 5, 1: GENE_NAME; 2: GENE_NAME; 4: GENE_NAME; 5: GENE_NAME; 9: GENE_NAME

ただし、より大きなデータセットで Amazon EMR で同じことを実行すると、次のようなすべての奇妙な文字が表示されます。何が原因でしょうか?

SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text\00\00\00\00\00\00\968\D6\FA\E1>X(.q\8B!\ABQ\00\00-\00\00\00
1537044153\8ERequired Genotype column (s), Must not contain NULLS for required fields, failed, 1, 1: VARIANT_START_POSITION; 2: VARIANT_START_POSITION; 
4

1 に答える 1

2

ヘッダー (SEQTextText) は、これがキーと値としてSequenceFileあることを示しています。org.apache.hadoop.io.Text

したがって、これはプレーンテキストではなくバイナリであり、SequenceFile.Reader.

于 2012-11-14T06:28:47.677 に答える