python - データフレームの具体的なサブサンプルを抽出し、pyspark の別のデータフレームに保存するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/46844000 2017-10-20T07:09:21.117

667 次

X行、1000と仮定する「df1」というデータフレームがあります。私がしたいのは、そのデータフレームの具体的なサブサンプルを取得し、別のデータとして保存することです。たとえば、「df1」から 400 行から 700 行を抽出して「df2」として保存したいとします。

考えられる方法の1つは、「df1」のコンテンツを次のベクトルとして取得することです。

list = df1.collect()
subsample = list[400:700]
df2 = sc.createDataFrame(subsample, attributes)

しかし、私の質問は次のとおりです。リストにデータをロードせずに同じ結果を得る他の方法はありますか? 巨大なデータセットがある場合、collect を使用してデータを効率的に読み込んで別のデータフレームを生成するのは効率的ではない可能性があるため、これをお願いします。

ありがとう。

1 に答える 1