0

Hadoop は初めてで、入力ファイルを処理する必要があります。各行を処理したいのですが、出力は行ごとに 1 つのファイルにする必要があります。

私はインターネットをサーフィンし、MultipleOutputFormat と generateFileNameForKeyValue を見つけました。

しかし、ほとんどの人は JobConf クラスで書いています。Hadoop 0.20.1を使っているので、Jobクラスが発生すると思います。Job クラスを使用してキーごとに複数の出力ファイルを生成する方法がわかりません。

誰でも私を助けることができますか?

4

1 に答える 1

0

Eclipse プラグインは主に、実際のクラスターまたは「疑似」クラスターに対して、ジョブの送信と監視、および HDFS との対話に使用されます。

ローカル モードで実行している場合、ジョブが単一の JVM で実行されるため、プラグインによって何も得られるとは思いません。これを念頭に置いて、Eclipse プロジェクトのクラスパスに最新の 1.x hadoop-core を含めます。

いずれにせよ、新しいmapreduceMultipleOutputFormatパッケージには移植されていません (1.1.2 でも 2.0.4-alpha でも) ので、自分で移植するか、別の方法を見つける必要があります (おそらくMultipleOutputs- Javadoc ページには、MultipleOutputs の使用に関するいくつかの使用法があります)。 )

于 2013-05-20T02:16:56.290 に答える