5

Amazon の Elastic Map Reduce を使用して、Google ngrams データセットをいじろうとしています。http://aws.amazon.com/datasets/8172056142375670にパブリック データセットがあり、Hadoop ストリーミングを使用したいと考えています。

入力ファイルについては、「Amazon S3 の単一のオブジェクトにデータセットを保存します。ファイルは、ブロック レベルの LZO 圧縮を使用したシーケンス ファイル形式です。シーケンス ファイルのキーは、LongWritable として保存されたデータセットの行番号であり、値は、TextWritable として保存された生データです。"

これらの入力ファイルを Hadoop ストリーミングで処理するには、何をする必要がありますか?

引数に追加の「-inputformat SequenceFileAsTextInputFormat」を追加しようとしましたが、これはうまくいかないようです。何らかの理由でジョブが失敗し続けます。私が見逃している他の議論はありますか?

マッパーとリデューサーの両方として非常に単純な ID を使用してみました

#!/usr/bin/env ruby

STDIN.each do |line|
  puts line
end

しかし、これは機能しません。

4

4 に答える 4

6

lzo は Elastic mapreduce の一部としてパッケージ化されているため、何もインストールする必要はありません。

私はちょうどこれを試してみましたが、うまくいきます...

Hadoop jar ~hadoop/contrib/streaming/hadoop-streaming.jar \
  -D mapred.reduce.tasks=0 \
  -入力 s3n://datasets.elasticmapreduce/ngrams/books/20090715/eng-all/1gram/ \
  -inputformat SequenceFileAsTextInputFormat \
  -output test_output \
  -mapper org.apache.hadoop.mapred.lib.IdentityMapper
于 2011-06-15T21:35:09.230 に答える
3

Lzo 圧縮は、ライセンスの問題により、Hadoop 0.20.x 以降から削除されました。lzo で圧縮されたシーケンス ファイルを処理する場合は、lzo ネイティブ ライブラリを Hadoop クラスターにインストールして構成する必要があります。

Kevin のHadoop-lzoプロジェクトは、私が認識している現在の実用的なソリューションです。私はそれを試しました。できます。

OS に lzo-devel パッケージをインストールします (まだ行っていない場合)。これらのパッケージは、OS レベルでの lzo 圧縮を有効にします。これがないと、hadoop の lzo 圧縮は機能しません。

hadoop-lzo の readme に指定されている手順に従ってコンパイルします。ビルド後、hadoop-lzo-lib jar および hadoop lzo ネイティブ ライブラリを取得します。クラスターが構成されているマシン (または同じアーキテクチャのマシン) からコンパイルするようにしてください。

Linux 用のディストリビューションでデフォルトで提供されている Hadoop 標準のネイティブ ライブラリも必要です。solaris を使用している場合は、標準の Hadoop ネイティブ ライブラリを取得するために、ソースから Hadoop を構築する必要もあります。

すべての変更が完了したら、クラスターを再起動します。

于 2011-02-24T03:46:11.987 に答える
1

このhttps://github.com/kevinweil/hadoop-lzoを見たいと思うかもしれません

于 2011-02-21T20:47:11.387 に答える
0

lzo を使用すると奇妙な結果が得られ、問題は他のコーデックで解決されます

-D mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec
-D mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec

その後、物事はうまくいきます。を変更する必要はありません (変更する必要もないかもしれません) -inputformat

Version: 0.20.2-cdh3u4, 214dd731e3bdb687cb55988d3f47dd9e248c5690
于 2012-12-04T09:31:22.180 に答える