0

一見単純な質問ですが、答えが見つかりません。

問題: 1 つのフィールドを取り、そこから 3 つのフィールドを作成する map() に渡す関数を作成します。map() の出力で、入力 RDD と新しい/出力 RDD の両方のフィールドを含む新しい RDD を取得したいと考えています。どうすればいいですか?

より多くの出力 RDD を元の RDD に結合できるように、データのキーを関数の出力に追加する必要がありますか? それは適切な/ベストプラクティスですか?

def extract_fund_code_from_iv_id(holding):
    # Must include key of data for later joining
    iv_id = Row(iv_id_fund_code=holding.iv_id[:2], iv_id_last_code=holding.iv_id[-2:])
    return iv_id

さらに基本的なことですが、2 つの Row を組み合わせることができないようです。

row1 = Row(name="joe", age="35")
row2 = Row(state="MA")
print row1, row2

これは、私が望むように new Row() を返しません。

ありがとう

4

1 に答える 1