hadoop - Hadoop1.0.0の分割可能なBz2入力

Question

Hadoop 1.0.0を使用するクラスターがあり、巨大なbz2ファイルを処理するMRジョブを実行したいと思います。バージョン0.21.0では、Bz2コーデックは入力ファイルの分割をサポートしていましたが、1.0.0ではこの機能を見つけることができませんでした。1.0.0でbz2入力を分割することに相当するものはありますか？または、このために0.21.0からのパッチを手動で適用する必要がありますか？

score 2 · Accepted Answer

Hadoop の 1.x バージョンは、分割可能な圧縮コーデックをまだサポートしていません。Bzip2 はサポートしていますが、分割できません。これは、この問題によって異なります https://issues.apache.org/jira/browse/HADOOP-7823 現在、この機能は Hadoop 1.1.0 で表示されるようです。

これを回避する最も簡単な方法は、現在ベータ版の Cloudera パッケージ cdh4 を確認することです。これには、分割を行う最新の Bzip2 実装があります。

参照：

Hadoop 1.0.0 API:

http://hadoop.apache.org/common/docs/r1.0.0/api/org/apache/hadoop/io/compress/BZip2Codec.html

public class BZip2Codec
extends Object
implements CompressionCodec

Hadoop 0.23.1 (AFAIK は Hadoop 2.x になります) API:

http://hadoop.apache.org/common/docs/r0.23.1/api/org/apache/hadoop/io/compress/BZip2Codec.html

public class BZip2Codec
extends Object
implements SplittableCompressionCodec

score 0 · Accepted Answer

0

BZip2 コーデック API は、ここにあります。

于 2012-05-02T00:58:24.483 に答える

score -2 · Accepted Answer

-2

org.apache.hadoop.io.compress.BZip2Codec入力分割に使用できます。

于 2012-05-01T21:13:20.673 に答える

hadoop - Hadoop1.0.0の分割可能なBz2入力

4 に答える 4

参照：

Related

Reference