0

現在、データマイニングに関連するいくつかのプロジェクトに携わっています。そして、分割基準として GINIsplit を使用した決定木誘導を使用して、指定されたデータ セット (.csv 形式) をさまざまなクラスに分類する必要があります。これらはすべて、WEKA、ORANGEなどのツールを使用せずにJavaプラットフォームで行ってきました。

私の質問は、分類が高速かつ効率的になるように決定木を表現するのに最適なデータ構造は何ですか? また、属性が名義型、数値型、または序数型の場合、属性ごとの最適化手法、つまり特定の手法はありますか?

前もって感謝します!

4

1 に答える 1

2

さて、本当に最適な分類速度が必要な場合は、決定木を次のように出力します.class。つまり、ツリーのコードスニペットを生成し、コンパイルします。このようにして、JavaHotspotJREのネイティブ速度で評価を実行できます。

プログラムロジックで決定木をエンコードできるため、次のようになります。

if (attribute_x < 0.1) {
    switch(attribute_c) {
        case BANANA: {
            ...

主な問題は、この最適化をどこまで実行したいかです。

于 2013-01-12T10:32:40.130 に答える