私は非常に単純なことをしたいのですが、Python/Spark(1.5)/Dataframe でそれを行う方法を理解できません (それは私にとってすべて新しいことです)。
元のデータセット:
code| ISO | country
1 | AFG | Afghanistan state
2 | BOL | Bolivia Plurinational State
新しいデータセット:
code| ISO | country
1 | AFG | Afghanistan
2 | BOL | Bolivia
私はこのようなことをしたいと思います(疑似Pythonで?):
iso_to_country_dict = {'AFG': 'Afghanistan', 'BOL': 'Bolivia'}
def mapCountry(iso,country):
if(iso_to_country_dict[iso] is not empty):
return iso_to_country_dict[iso]
return country
dfg = df.select(mapCountry(df['ISO'],df['country']))
簡単にするために、mapCountry は次のようになります。
def mapCountry(iso,country):
if(iso=='AFG'):
return 'Afghanistan'
return country
しかし、これにはエラーがあります:ValueError: Cannot convert column into bool: