sparkデータフレームから.map()
一連のを作成するために使用するpythonの関数は何ですか? labeledPoints
ラベル/結果が最初の列ではないが、その列名「ステータス」を参照できる場合の表記法は?
この .map() 関数を使用して Python データフレームを作成します。
def parsePoint(line):
listmp = list(line.split('\t'))
dataframe = pd.DataFrame(pd.get_dummies(listmp[1:]).sum()).transpose()
dataframe.insert(0, 'status', dataframe['accepted'])
if 'NULL' in dataframe.columns:
dataframe = dataframe.drop('NULL', axis=1)
if '' in dataframe.columns:
dataframe = dataframe.drop('', axis=1)
if 'rejected' in dataframe.columns:
dataframe = dataframe.drop('rejected', axis=1)
if 'accepted' in dataframe.columns:
dataframe = dataframe.drop('accepted', axis=1)
return dataframe
reduce 関数がすべての Pandas データフレームを再結合した後、Spark データフレームに変換します。
parsedData=sqlContext.createDataFrame(parsedData)
labledPoints
しかし、これからPython でどのように作成すればよいでしょうか? 私はそれが別の.map()
機能であると思いますか?