hadoop - LZO で圧縮されたシーケンスファイルで Hadoop ストリーミングを使用する方法

Question

Amazon の Elastic Map Reduce を使用して、Google ngrams データセットをいじろうとしています。http://aws.amazon.com/datasets/8172056142375670にパブリックデータセットがあり、Hadoop ストリーミングを使用したいと考えています。

入力ファイルについては、「Amazon S3 の単一のオブジェクトにデータセットを保存します。ファイルは、ブロックレベルの LZO 圧縮を使用したシーケンスファイル形式です。シーケンスファイルのキーは、LongWritable として保存されたデータセットの行番号であり、値は、TextWritable として保存された生データです。"

これらの入力ファイルを Hadoop ストリーミングで処理するには、何をする必要がありますか?

引数に追加の「-inputformat SequenceFileAsTextInputFormat」を追加しようとしましたが、これはうまくいかないようです。何らかの理由でジョブが失敗し続けます。私が見逃している他の議論はありますか？

マッパーとリデューサーの両方として非常に単純な ID を使用してみました

#!/usr/bin/env ruby

STDIN.each do |line|
  puts line
end

しかし、これは機能しません。

score 6 · Accepted Answer

lzo は Elastic mapreduce の一部としてパッケージ化されているため、何もインストールする必要はありません。

私はちょうどこれを試してみましたが、うまくいきます...

Hadoop jar ~hadoop/contrib/streaming/hadoop-streaming.jar \
  -D mapred.reduce.tasks=0 \
  -入力 s3n://datasets.elasticmapreduce/ngrams/books/20090715/eng-all/1gram/ \
  -inputformat SequenceFileAsTextInputFormat \
  -output test_output \
  -mapper org.apache.hadoop.mapred.lib.IdentityMapper

score 3 · Accepted Answer

Lzo 圧縮は、ライセンスの問題により、Hadoop 0.20.x 以降から削除されました。lzo で圧縮されたシーケンスファイルを処理する場合は、lzo ネイティブライブラリを Hadoop クラスターにインストールして構成する必要があります。

Kevin のHadoop-lzoプロジェクトは、私が認識している現在の実用的なソリューションです。私はそれを試しました。できます。

OS に lzo-devel パッケージをインストールします (まだ行っていない場合)。これらのパッケージは、OS レベルでの lzo 圧縮を有効にします。これがないと、hadoop の lzo 圧縮は機能しません。

hadoop-lzo の readme に指定されている手順に従ってコンパイルします。ビルド後、hadoop-lzo-lib jar および hadoop lzo ネイティブライブラリを取得します。クラスターが構成されているマシン (または同じアーキテクチャのマシン) からコンパイルするようにしてください。

Linux 用のディストリビューションでデフォルトで提供されている Hadoop 標準のネイティブライブラリも必要です。solaris を使用している場合は、標準の Hadoop ネイティブライブラリを取得するために、ソースから Hadoop を構築する必要もあります。

すべての変更が完了したら、クラスターを再起動します。

score 1 · Accepted Answer

1

このhttps://github.com/kevinweil/hadoop-lzoを見たいと思うかもしれません

于 2011-02-21T20:47:11.387 に答える

score 0 · Accepted Answer

lzo を使用すると奇妙な結果が得られ、問題は他のコーデックで解決されます

-D mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

その後、物事はうまくいきます。を変更する必要はありません (変更する必要もないかもしれません) -inputformat。

Version: 0.20.2-cdh3u4, 214dd731e3bdb687cb55988d3f47dd9e248c5690

hadoop - LZO で圧縮されたシーケンス ファイルで Hadoop ストリーミングを使用する方法

4 に答える 4

Related

Reference

hadoop - LZO で圧縮されたシーケンスファイルで Hadoop ストリーミングを使用する方法