1

map reduce でキーを分割し、新しいキーと値のペアを作成したいと考えています。

現在のドキュメント ファイル:

[(u'ab,xy,sc,dr , u'doc1)]

次のように各値でキーを分割したい:

[(u'ab,doc1) , (u'xy,doc1) ,(u'sc,doc1) , (u'dr,doc1)]

どんな助けでも大歓迎です!ありがとう

4

1 に答える 1

2
def process(record):
    for key in record[0].split(','):
        yield key, record[1]

rdd = sc.parallelize([(u'ab,xy,sc,dr', u'doc1')])
rdd.flatMap(process).collect()

結果として

[(u'ab', u'doc1'), (u'xy', u'doc1'), (u'sc', u'doc1'), (u'dr', u'doc1')]
于 2015-04-26T12:26:59.200 に答える