hadoop - jar ファイルとしてのカスタムマッパー

Question

jar ファイルである Hive 用のカスタムマッパーを作成したいと考えています。これをクエリでどのように使用しますか?

通常の構文を使用する:

add file myfile.jar

...

map using myfile.jar

動作しないようです。私が得るエラーは次のとおりです。

2013-04-15 22:52:26,207 INFO org.apache.hadoop.hive.ql.exec.ScriptOperator: スクリプトはすべての入力データを消費しませんでした。これはエラーと見なされます。2013-04-15 22:52:26,207 INFO org.apache.hadoop.hive.ql.exec.ScriptOperator: hive.exec.script.allow.partial.consumption=true を設定します。それを無視します。2013-04-15 22:52:26,207 FATAL ExecReducer: org.apache.hadoop.hive.ql.metadata.HiveException: java.io.IOException: 壊れたパイプ

注: 私の jar は、warblerを使用して jar にコンパイルされた jruby ファイルです。

score 0 · Accepted Answer

Hive は、「ストリーム可能な」カスタムマッパーとリデューサー (標準入力から読み取り、標準出力に書き込む単純なプログラム) を使用します。そのため、通常は Python、Perl、PHP、さらには Bash などのスクリプト言語が使用されます。もちろんルビーも。

ただし、そのために Java プログラムを使用する場合は、そのプログラムを実行可能にする必要があります。単純な標準入力/標準出力の作業に Java を本当に使用する必要がありますか?

UPD: 代わりに、JRuby は単純な Ruby を使用します。

score 0 · Accepted Answer

正確に Java を使用する必要がある場合は、マッパーの代わりに独自の UDF を作成してみてください。実際、HiveQL 関数と UDF はマッパーと同じ働きをします。

score 0 · Accepted Answer

Hive は、任意のマッパースクリプトを実行するだけです。この場合、jarファイルを次のように実行する必要がありますがjava -jar myfile.jar、として実行しようとしていました./myfile.jar. 私の解決策は、というラッパーシェルスクリプトを追加することでしたmyfile.sh。シェルスクリプトが jar を実行し、私myfile.shはマッパーとして使用しました。このようにして、.jarファイルをマッパーとして使用できました。

hadoop - jar ファイルとしてのカスタム マッパー

3 に答える 3

Related

Reference

hadoop - jar ファイルとしてのカスタムマッパー