4

Hadoop、Pig、および Cassandra を組み合わせて、単純な Pig クエリを使用して Cassandra に保存されているデータを操作できるようにしようとしています。問題は、CassandraStorage で実際に動作する Map/Reduce ジョブを Pig に作成させることができないことです。

私がしたことは、自分のクラスタ マシンの 1 つから storage-conf.xml ファイルを contrib/pig (Cassandra のソース ディストリビューション) のマシンの上にコピーし、それらを cassandra_loadfun.jar ファイルにコンパイルしたことです。

次に、すべての jar を含めるように example-script.pig を調整しました。

register /opt/pig/pig-0.7.0-core.jar;
register /tmp/apache-cassandra-0.6.3-src/lib/libthrift-r917130.jar;
REGISTER /tmp/apache-cassandra-0.6.3-src/contrib/pig/build/cassandra_loadfunc.jar;
rows = LOAD 'cassandra://Keyspace1/Standard1' USING org.apache.cassandra.hadoop.pig.CassandraStorage();
cols = FOREACH rows GENERATE flatten($1);
colnames = FOREACH cols GENERATE $0;
namegroups = GROUP colnames BY $0;
namecounts = FOREACH namegroups GENERATE COUNT($1), group;
orderednames = ORDER namecounts BY $0;
topnames = LIMIT orderednames 50;
dump topnames;

したがって、私が間違っていなければ、jar は Hadoop に送信されるジョブにバンドルする必要があります。しかし、ジョブを実行すると、例外がスローされます。

2010-08-04 22:11:46,395 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 2117: Unexpected error when launching map reduce job.
2010-08-04 22:11:46,395 [main] ERROR org.apache.pig.tools.grunt.Grunt - org.apache.pig.impl.logicalLayer.FrontendException: ERROR 1066: Unable to open iterator for alias topnames
    at org.apache.pig.PigServer.openIterator(PigServer.java:521)
    at org.apache.pig.tools.grunt.GruntParser.processDump(GruntParser.java:544)
    at org.apache.pig.tools.pigscript.parser.PigScriptParser.parse(PigScriptParser.java:241)
    at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:162)
    at org.apache.pig.tools.grunt.GruntParser.parseStopOnError(GruntParser.java:138)
    at org.apache.pig.tools.grunt.Grunt.exec(Grunt.java:89)
    at org.apache.pig.Main.main(Main.java:391)
Caused by: org.apache.pig.impl.logicalLayer.FrontendException: ERROR 1002: Unable to store alias topnames
    at org.apache.pig.PigServer.store(PigServer.java:577)
    at org.apache.pig.PigServer.openIterator(PigServer.java:504)
    ... 6 more
Caused by: org.apache.pig.backend.executionengine.ExecException: ERROR 2117: Unexpected error when launching map reduce job.
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher.launchPig(MapReduceLauncher.java:209)
    at org.apache.pig.backend.hadoop.executionengine.HExecutionEngine.execute(HExecutionEngine.java:308)
    at org.apache.pig.PigServer.executeCompiledLogicalPlan(PigServer.java:835)
    at org.apache.pig.PigServer.store(PigServer.java:569)
    ... 7 more
Caused by: java.lang.RuntimeException: Could not resolve error that occured when launching map reduce job: java.lang.NoClassDefFoundError: org/apache/thrift/TBase
    at org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher$JobControlThreadExceptionHandler.uncaughtException(MapReduceLauncher.java:510)
    at java.lang.Thread.dispatchUncaughtException(Thread.java:1845)

リサイクルライブラリが明示的にリストされており、バンドルする必要があるため、どれがわかりませんか?

4

1 に答える 1

2

例外は、TBase クラスを見つけることができないことを明確に示しています。

java.lang.NoClassDefFoundError: org/apache/thrift/TBase

バンドルされた jar を展開し、thrift lib jar が実際に正しい場所に存在するかどうかを確認します。リサイクルジャーは別の場所に同梱されている可能性があります。

バンドルされている jar の lib フォルダーに jar を配置することもできます。別のオプションは、jar をクラスパスに明示的に追加することです。

于 2010-08-17T03:03:59.557 に答える