pyspark - pyspark DF から辞書を作成する最速の方法

翻译自：https://stackoverflow.com/questions/47693295 2017-12-07T10:47:41.393

1494 次

Snappydata と pyspark を使用して SQL クエリを実行し、出力 DF を辞書に変換して mongo に一括挿入します。Spark DF から Dictionary への変換をテストするために、多くの同様のクエリを実行しました。

現在、このメソッドを使用して、バルクDF を辞書map(lambda row: row.asDict(), x.collect())に変換しています。10K レコードの場合、2 ～ 3 秒かかります。

私は自分の考えをどのように実装するかを以下に述べました：

x = snappySession.sql("select * from test")
df = map(lambda row: row.asDict(), x.collect())
db.collection.insert_many(df)

より速い方法はありますか？

2 に答える 2