特定のチュートリアルに関連する質問をしてもよろしいかと思います。たぶん、ここにいる誰かが同じチュートリアルを使用して、答えを知っています。
Kaggle Titanic Datasetを使用して、バイナリ分類の Databricks チュートリアルに従っています。
このチュートリアルは、ラベル付けされたデータセットを操作します。次の手順が実行されます。
- 前処理: すべてのカテゴリ機能にインデックスを付け、すべての機能を「機能」と呼ばれるベクトルに入れます。
- モデルの構築
- モデルの評価
- 予測を行います
このチュートリアルでは、トレーニングとテストに分割された大きなラベル付きデータセットを使用して、モデルを構築し、後で評価します。私はこれを列車のデータセットで問題なく動作させました。
ここで、ラベルのない Kaggle からの別の「テスト」データセットの予測を行いたいと思います (私の場合は「生存」列、チュートリアルの場合は「収入」列が欠落しています)。
これにアプローチする方法を知っている人はいますか?チュートリアルの前処理部分全体をテスト データセットに対して個別に実行してから、以下を呼び出す必要がありますか?
finalPredictions = bestModel.transform(preprocessedUnlabelledTestDataset)
または、欠落しているラベル列 (収入/生存) をテスト データセットに追加し、前処理を行ってから上記を呼び出す必要がありますか?