1

特定のチュートリアルに関連する質問をしてもよろしいかと思います。たぶん、ここにいる誰かが同じチュートリアルを使用して、答えを知っています。

Kaggle Titanic Datasetを使用して、バイナリ分類の Databricks チュートリアルに従っています。

このチュートリアルは、ラベル付けされたデータセットを操作します。次の手順が実行されます。

  • 前処理: すべてのカテゴリ機能にインデックスを付け、すべての機能を「機能」と呼ばれるベクトルに入れます。
  • モデルの構築
  • モデルの評価
  • 予測を行います

このチュートリアルでは、トレーニングとテストに分割された大きなラベル付きデータセットを使用して、モデルを構築し、後で評価します。私はこれを列車のデータセットで問題なく動作させました。

ここで、ラベルのない Kaggle からの別の「テスト」データセットの予測を行いたいと思います (私の場合は「生存」列、チュートリアルの場合は「収入」列が欠落しています)。

これにアプローチする方法を知っている人はいますか?チュートリアルの前処理部分全体をテスト データセットに対して個別に実行してから、以下を呼び出す必要がありますか?

finalPredictions = bestModel.transform(preprocessedUnlabelledTestDataset)

または、欠落しているラベル列 (収入/生存) をテスト データセットに追加し、前処理を行ってから上記を呼び出す必要がありますか?

4

1 に答える 1