python - PySpark -- 行のリストをデータフレームに変換する

Question

私が実際に解決しようとしている問題は、PySpark データフレームの最初/最後の N 行を取得し、結果をデータフレームにすることです。具体的には、次のようなことができるようになりたいです。

 my_df.head(20).toPandas()

ただし、head()行のリストを返すため、次のエラーが発生します。

AttributeError: 'list' object has no attribute 'toPandas'

したがって、PySpark データフレームの最初の N 行を dataframeとして返すメソッド、またはこれらの行のリストをデータフレームに変換するメソッドを探しています。何か案は？

score 9 · Accepted Answer

とlimit:

>>> df = sc.parallelize((("a", 1), ("b", 2))).toDF()
>>> df.limit(1).toPandas()
  _1  _2
0  a   1

とpd.DataFrame:

>>> pd.DataFrame(df.head(1), columns=df.columns)
  _1  _2
0  a   1

python - PySpark -- 行のリストをデータ フレームに変換する