0

私はパンダで運動をしようとしています。

2 つのデータフレームがあります。両方のデータフレーム間でいくつかの列を比較し、比較が成功した場合は最初のデータフレームの 1 つの列の値を変更する必要があります。

データフレーム 1:

Article    Country   Colour    Buy
Pants      Germany   Red       0
Pull       Poland    Blue      0

最初は、すべての記事の「購入」フラグがゼロに設定されています。次のようなデータフレーム 2 があります。

Article    Origin    Colour   
Pull       Poland    Blue    
Dress      Italy     Red

記事、国/原産地、および色の列が一致するかどうかを確認したい (したがって、データフレーム 1 の各記事をデータフレーム 2 で見つけることができるかどうかを確認します)。一致する場合は、「購入」フラグを 1 に設定します。

pyspark を使用して両方のデータフレームを反復しようとしていますが、pyspark daatframes は反復可能ではありません。パンダでやろうと思ったのですが、反復中に値を変更するのは明らかに悪い習慣です。

pyspark または pandas のどのコードが、必要なことを実行するために機能しますか?

ありがとう!

4

1 に答える 1