私の質問は、単一ノード環境で回答するのはかなり簡単ですが、分散 Spark 環境で同じことを行う方法がわかりません。私が今持っているのは「頻度プロット」で、各項目についてそれが発生する回数があります。たとえば、次のような場合があります。 (1, 2), (2, 3), (3,1)
つまり、1 が 2 回、2 が 3 回発生したということです。
私が取得したいのは、各アイテムの累積頻度であるため、上記のインスタンス データから必要な結果は次のとおりです(1, 2), (2, 3+2=5), (3, 1+3+2=6)
。
mapPartitions
これまでのところ、パーティションが1つしかない場合に正しい結果が得られる...それ以外の場合は明らかにいいえを使用して、これを実行しようとしました。
どうやってやるの?
ありがとう。マルコ