私は機能ツールが大好きですが、データ漏洩が心配なため、データ サイエンス ワークフローに組み込むのに苦労しています。
これを防ぐ方法は、トレーニング セットで深い特徴合成を実行してから、適切な値をテスト セットに結合し、トレーニング セットに存在しないカテゴリのグループでのみ特徴を計算することだと思います。
漏れを処理するより適切な方法はありますか?
私は機能ツールが大好きですが、データ漏洩が心配なため、データ サイエンス ワークフローに組み込むのに苦労しています。
これを防ぐ方法は、トレーニング セットで深い特徴合成を実行してから、適切な値をテスト セットに結合し、トレーニング セットに存在しないカテゴリのグループでのみ特徴を計算することだと思います。
漏れを処理するより適切な方法はありますか?