python - Python Spark Databricks バイナリ分類チュートリアル - ラベルのないデータを予測する方法は?

Question

特定のチュートリアルに関連する質問をしてもよろしいかと思います。たぶん、ここにいる誰かが同じチュートリアルを使用して、答えを知っています。

このチュートリアルは、ラベル付けされたデータセットを操作します。次の手順が実行されます。

このチュートリアルでは、トレーニングとテストに分割された大きなラベル付きデータセットを使用して、モデルを構築し、後で評価します。私はこれを列車のデータセットで問題なく動作させました。

ここで、ラベルのない Kaggle からの別の「テスト」データセットの予測を行いたいと思います (私の場合は「生存」列、チュートリアルの場合は「収入」列が欠落しています)。

これにアプローチする方法を知っている人はいますか？チュートリアルの前処理部分全体をテストデータセットに対して個別に実行してから、以下を呼び出す必要がありますか?

finalPredictions = bestModel.transform(preprocessedUnlabelledTestDataset)

または、欠落しているラベル列 (収入/生存) をテストデータセットに追加し、前処理を行ってから上記を呼び出す必要がありますか?

1 に答える 1