5 つの可能な異なる値を持つ合理的な離散ターゲット属性を持つ決定木を学習したいと考えています。ただし、カーディナリティの高い個別の入力属性 (数千の異なる文字列値) があり、それらを含める意味があるかどうか疑問に思います。デシジョン ツリーをトレーニングするために属性を含める場合、最大カーディナリティをどうするべきかというポリシーはありますか?
5 つの可能な異なる値を持つ合理的な離散ターゲット属性を持つ決定木を学習したいと考えています。ただし、カーディナリティの高い個別の入力属性 (数千の異なる文字列値) があり、それらを含める意味があるかどうか疑問に思います。デシジョン ツリーをトレーニングするために属性を含める場合、最大カーディナリティをどうするべきかというポリシーはありますか?