python - sparkで列の量が異なる2つのDataFrameでユニオンを実行する方法は?

Question

私には2つDataFrameのsがあります：

私はこのような組合が必要です:

列のunionAll数と名前が異なるため機能しません。

これどうやってするの？

score 2 · Accepted Answer

from functools import reduce
from pyspark.sql import DataFrame
import pyspark.sql.functions as F

def unionAll(*dfs, fill_by=None):
    clmns = {clm.name.lower(): (clm.dataType, clm.name) for df in dfs for clm in df.schema.fields}
    
    dfs = list(dfs)
    for i, df in enumerate(dfs):
        df_clmns = [clm.lower() for clm in df.columns]
        for clm, (dataType, name) in clmns.items():
            if clm not in df_clmns:
                # Add the missing column
                dfs[i] = dfs[i].withColumn(name, F.lit(fill_by).cast(dataType))
    return reduce(DataFrame.unionByName, dfs)
unionAll(df1, df2).show()

大文字と小文字を区別しない列
実際の列ケースを返します
既存のデータ型をサポート
デフォルト値はカスタマイズ可能
一度に複数のデータフレームを渡す (例: unionAll(df1, df2, df3, ..., df10))

python - sparkで列の量が異なる2つのDataFrameでユニオンを実行する方法は?

22 に答える 22

Related

Reference