X行、1000と仮定する「df1」というデータフレームがあります。私がしたいのは、そのデータフレームの具体的なサブサンプルを取得し、別のデータとして保存することです。たとえば、「df1」から 400 行から 700 行を抽出して「df2」として保存したいとします。
考えられる方法の1つは、「df1」のコンテンツを次のベクトルとして取得することです。
list = df1.collect()
subsample = list[400:700]
df2 = sc.createDataFrame(subsample, attributes)
しかし、私の質問は次のとおりです。リストにデータをロードせずに同じ結果を得る他の方法はありますか? 巨大なデータセットがある場合、collect を使用してデータを効率的に読み込んで別のデータフレームを生成するのは効率的ではない可能性があるため、これをお願いします。
ありがとう。