一見単純な質問ですが、答えが見つかりません。
問題: 1 つのフィールドを取り、そこから 3 つのフィールドを作成する map() に渡す関数を作成します。map() の出力で、入力 RDD と新しい/出力 RDD の両方のフィールドを含む新しい RDD を取得したいと考えています。どうすればいいですか?
より多くの出力 RDD を元の RDD に結合できるように、データのキーを関数の出力に追加する必要がありますか? それは適切な/ベストプラクティスですか?
def extract_fund_code_from_iv_id(holding):
# Must include key of data for later joining
iv_id = Row(iv_id_fund_code=holding.iv_id[:2], iv_id_last_code=holding.iv_id[-2:])
return iv_id
さらに基本的なことですが、2 つの Row を組み合わせることができないようです。
row1 = Row(name="joe", age="35")
row2 = Row(state="MA")
print row1, row2
これは、私が望むように new Row() を返しません。
ありがとう