0

初めてpysparkを使用しています。

java と同じように、リデューサー タスクがマッパーからのキーで返される値を反復処理するようにします。

アキュムレータのオプションのみがあり、反復はありません-add関数のように add(data1,data2) => data1 はアキュムレータです。

キーに属する値のリストを入力に入れたいと思います。

例

それが私がやりたいことです。それを行うオプションがあるかどうか誰でも知っていますか?

4

1 に答える 1

0

reduceByKey 関数を使用してください。Pythonでは、次のようになります

from operator import add
rdd = sc.textFile(....)
res = rdd.map(...).reduceByKey(add)

注: Spark と MR には根本的な違いがあるため、互いに無理に適合させないことをお勧めします。Spark はペア関数も非常にうまくサポートしています。

ところで、単語数の問題はスパークドキュメントで詳細に議論されています(特にフラットマップの使用法)。

于 2015-05-18T04:14:13.390 に答える