pandas - キーと値のリストをpysparkのデータフレームに変換する方法は?

Question

キーと値を含むテキストファイルがあり、一部の値が欠落していました。

key1 12 13 na
key1 na 11 11
key1 12 13 11
key2 11 12 10
key3 10 11 10
key3 na na na

欠損値を埋めたかったので、そうしました（データは私のrddです）

def fill_na(x):
    ldf = Df(list(x))
    df_with_na = ldf #df_with_na.toPandas()
    df_with_mode = df_with_na.fillna(df_with_na.mode().iloc[0])
    return_list = df_with_mode.values.tolist()
    return return_list

data1 = data.mapValues(fill_na).flatMapValues(f)

data1 は次のようになります。

data1.collect() 

(key1 ,[12 13 11])
(key1 ,[12 11 11])
(key1 ,[12 13 11])
(key2 ,[11 12 10])
(key3 ,[10 11 10])
(key3 ,[10 11 10])

上記のdata1をデータフレーム/テーブルに書き込みたい

data1.toDF().toPandas()

しかし、私はエラーが発生しています

TypeError: StringType can not accept object in type <type 'float'>

1)データフレームに書き込むにはどうすればよいですか? 2)以下のようにキーとリストを単一のタプルに変換するにはどうすればよいですか?

(key1 ,11,12,13)

データフレームに直接書き込むことができるようにするには?

前もって感謝します：）

score 0 · Accepted Answer

DataFrames and SQL に関する Spark プログラミングガイドから、これを試してください。

from pyspark.sql import SQLContext, Row

df = data.map(lambda (k, v): Row(k, v[0], v[1], v[2])).toDF()

pandas - キーと値のリストをpysparkのデータフレームに変換する方法は?

1 に答える 1

Related

Reference