私はパンダで運動をしようとしています。
2 つのデータフレームがあります。両方のデータフレーム間でいくつかの列を比較し、比較が成功した場合は最初のデータフレームの 1 つの列の値を変更する必要があります。
データフレーム 1:
Article Country Colour Buy
Pants Germany Red 0
Pull Poland Blue 0
最初は、すべての記事の「購入」フラグがゼロに設定されています。次のようなデータフレーム 2 があります。
Article Origin Colour
Pull Poland Blue
Dress Italy Red
記事、国/原産地、および色の列が一致するかどうかを確認したい (したがって、データフレーム 1 の各記事をデータフレーム 2 で見つけることができるかどうかを確認します)。一致する場合は、「購入」フラグを 1 に設定します。
pyspark を使用して両方のデータフレームを反復しようとしていますが、pyspark daatframes は反復可能ではありません。パンダでやろうと思ったのですが、反復中に値を変更するのは明らかに悪い習慣です。
pyspark または pandas のどのコードが、必要なことを実行するために機能しますか?
ありがとう!