1

ストリーミングで Hadoop を実行しようとしています。2 つのファイルがあります。1 つはマッパー用の Java ファイルで、もう 1 つはレデューサー用の Python スクリプトです。

MerkleMapper.java

Class MerkleMapper extends MapREduceBase関数を定義しmap()ます。入力分割の各レコードについて、入力key(byte_offset)value(line)ペアを読み取りbyte_offset、行の および ハッシュを出力します。

Reducer は、すべてのハッシュを組み合わせてトップ ハッシュを生成する Python スクリプトです。

2つ(JavaとPython)を組み合わせることは可能ですか?ストリーミングを使用して Java ファイルをマッパーとして指定するにはどうすればよいですか。

4

1 に答える 1

0

2つのジョブに分割できます。

最初のジョブにはマッパー (Java マッパー) しかなく、その出力を取得して Python ストリーミング ジョブに渡します。ここで、マッパーは ID マッパーであり、リデューサーは Python リデューサーです。現在、ストリーミングと Java を組み合わせることはできません。

于 2012-02-16T13:01:18.607 に答える