現在、データマイニングに関連するいくつかのプロジェクトに携わっています。そして、分割基準として GINIsplit を使用した決定木誘導を使用して、指定されたデータ セット (.csv 形式) をさまざまなクラスに分類する必要があります。これらはすべて、WEKA、ORANGEなどのツールを使用せずにJavaプラットフォームで行ってきました。
私の質問は、分類が高速かつ効率的になるように決定木を表現するのに最適なデータ構造は何ですか? また、属性が名義型、数値型、または序数型の場合、属性ごとの最適化手法、つまり特定の手法はありますか?
前もって感謝します!