python - Pyspark - レデューサータスクは値を反復処理します

Question

初めてpysparkを使用しています。

java と同じように、リデューサータスクがマッパーからのキーで返される値を反復処理するようにします。

アキュムレータのオプションのみがあり、反復はありません-add関数のように add(data1,data2) => data1 はアキュムレータです。

キーに属する値のリストを入力に入れたいと思います。

それが私がやりたいことです。それを行うオプションがあるかどうか誰でも知っていますか？

score 0 · Accepted Answer

reduceByKey 関数を使用してください。Pythonでは、次のようになります

from operator import add
rdd = sc.textFile(....)
res = rdd.map(...).reduceByKey(add)

注: Spark と MR には根本的な違いがあるため、互いに無理に適合させないことをお勧めします。Spark はペア関数も非常にうまくサポートしています。

ところで、単語数の問題はスパークドキュメントで詳細に議論されています（特にフラットマップの使用法）。

python - Pyspark - レデューサー タスクは値を反復処理します