ストリーミングで Hadoop を実行しようとしています。2 つのファイルがあります。1 つはマッパー用の Java ファイルで、もう 1 つはレデューサー用の Python スクリプトです。
MerkleMapper.java
Class MerkleMapper extends MapREduceBase
関数を定義しmap()
ます。入力分割の各レコードについて、入力key(byte_offset)
、value(line)
ペアを読み取りbyte_offset
、行の および ハッシュを出力します。
Reducer は、すべてのハッシュを組み合わせてトップ ハッシュを生成する Python スクリプトです。
2つ(JavaとPython)を組み合わせることは可能ですか?ストリーミングを使用して Java ファイルをマッパーとして指定するにはどうすればよいですか。