apache-spark - 単純な SQL 結合に相当する PySpark

Question

これはおそらく単純な質問ではありません。

しかし、私は自分自身ではあまり進んでいません。

Databricks で PySpark を使用して、ルックアップに相当する SQL を実行しようとしています。

select 
    a.*
    , b.MASTER_ID as PLAYER_ID 
from vGame a
join PLAYER_XREF b 
on a.PLAYER_NAME = b.PLAYER

の両側にある 2 つの属性onは同じ名前ではないことに注意してください。

同じのpysparkバージョンを見せてもらえますか? これについてここにある多数の接線の投稿は、これよりも複雑すぎるようです。

私はこれを見つけましたが、これは本当に近いですが、返されたデータフレームはすべてtaとtbの列です。

inner_join = ta.join(tb, ta.name == tb.name)

score 1 · Accepted Answer

すべての列を個別に一覧表示し、1 つの列に次taのエイリアスを付けることができます。tb

from pyspark.sql.functions import *

inner_join = ta.join(tb, ta.PLAYER_NAME == tb.PLAYER).select('<taCol1>', '<taCol2>', ... col('MASTER_ID').alias('PLAYER_ID'))

display(inner_join)

apache-spark - 単純な SQL 結合に相当する PySpark

2 に答える 2

Related

Reference