5

Hadoop in Actionを読んだところ、とクラスをJava使用するとデータを複数のファイルに減らすことができることがわかりましたが、 を使用して同じことを達成する方法がわかりません。 MultipleOutputFormatMultipleOutputsPython streaming

例えば:

                  / out1/part-0000
mapper -> reducer   
                  \ out2/part-0000

知っている方、聞いた方、同じようなことをした方、教えてください。

4

1 に答える 1

2

Dumbo (hadoop 用の効率的な Python M/R プログラムの作成を容易にする Python ライブラリ) と一緒に使用する Java クラスのセットであるDumbo Feathersは、出力クラスでこれを行います。

基本的に、Python ダンボ M/R ジョブでは、2 つの要素のタプルであるキーを出力します。最初の要素は出力先のディレクトリの名前で、2 番目の要素は実際のキーです。次に、選択した出力クラスがタプルを調べて、使用する出力ディレクトリを見つけ、MultipleOutputFormat を使用してさまざまなサブディレクトリに書き込みます。

ダンボだとtypedbytesを出力形式にしているので簡単ですが、他の出力形式でも大丈夫だと思います。

于 2011-09-29T19:22:41.427 に答える