statistics - Rapidminer のデシジョンツリーに最適なパラメータは何か

Question

14 個の通常の属性を持つ一連のデータがあります。このトレーニングデータからRapidminerで最適なデシソンツリーを作成して、このツリーをスコアリングデータに使用できるようにしようとしています。

しかし、デシジョンツリーに使用するパラメーターがわかりません (例: 基準、最小ゲイン、信頼度など)。また、自分のモデルに適用できる/適用する必要がある他の演算子を (もしあれば) わかりませんか?

何が最適かについての一般的なヒントを誰か教えてもらえますか?

私が持っているデータは、誰かが新しい銀行口座を開設した場合、信用状態が良好かどうかを判断するためのものです. 信用度、口座の種類、履歴、職歴、性別、職業などの情報を持っています。

ありがとうございました。

score 1 · Accepted Answer

一般に、サンプル数は機械学習プロセスの改善に役立ちます。このリンクを参照してくださいhttp://www.simafore.com/blog/bid/55751/how-to-use-decision-trees-for-credit-scoring-using-rapidminer-part -1

statistics - Rapidminer のデシジョン ツリーに最適なパラメータは何か