PySpark で Jupyter Notebook を使用しています。その中に、それらの列の列名と型 (整数など) を持つスキーマを持つデータフレームがあります。今、私は flatMap のようなメソッドを使用していますが、これはもはや固定型を持たないタプルのリストを返します。それを達成する方法はありますか?
df.printSchema()
root
|-- name: string (nullable = true)
|-- ...
|-- ...
|-- ratings: integer (nullable = true)
次に、flatMap を使用して評価値を計算します (ここでは難読化されています)。
df.flatMap(lambda row: (row.id, 5 if (row.ratings > 5) else row.ratings))
y_rate.toDF().printSchema()
そして今、私はエラーが発生します:
TypeError: 次の型のスキーマを推測できません:
スキーマを保持して map/flatMap/reduce を使用する方法はありますか? または、少なくとも特定の型の値を持つタプルを返しますか?