0

私の仲間の学生と私は、教育用機械学習プロジェクトに取り組んでおり、データマイニングの経験がまったくないため、オーバーフィッティングの問題に悩まされています。

私たちのビジネス ケースはリテール バンキングに関するものであり、商品やサービスに応じて顧客のターゲット グループを検索することを目指しています。株式、ファンド、預金など、すでに購入された製品に基づいた特定の製品を顧客に推奨すること。

約 400 の特徴と 150.000 のデータ レコードを含むデータ セットを受け取りました。Knime でワークフローを構築します。ワークフローには次の手順が含まれます。

  • データを調査し、ターゲット変数を定義しました
  • ほとんどが欠落している値を持つすべての列を排除するために、欠落している値の列フィルターを使用しました。
  • また、ツリー アンサンブル ワークフローを適用して次元を削減しました。

全体として、データをクリーンアップし、変数を 400 から約 50 に減らしました。モデリングでは単純な決定木を使用しますが、ここで問題が発生します。この木は常に 100% の精度を示します。オーバーフィット。

私たちが間違っていることはありますか?または、何に焦点を当てるべきですか?

コミュニティがヒントやヒントを提供してくれることを願っています。

編集: knime などのデータ マイニング ツールでクロス アップ販売を適用する方法に関する情報源、論文などはありますか? すでにグーグルで検索しましたが、これまでのところ成功していません。

4

2 に答える 2