0

VFDT での C4.5 の現在の実装 ( http://www.cs.washington.edu/dm/vfml/vfdt.html ) またはその他の実装では、C4.5 形式のファイルを使用して、ファイルを構築するための入力を提供します。決定木。これによると、属性は次の形式を持つことができます。

連続 属性が連続値を持つ場合。

個別 「個別」という単語の後に、属性が取り得る値の数を示す整数が続きます。

識別子のリスト これは、値が列挙された個別の属性です (これは、個別の属性に推奨される方法です)。識別子はコンマで区切る必要があります。

ignore は、属性を無視する必要があることを意味します - 使用されません。

可能な値の完全なセットが大きすぎてリストできない個別の値の属性を指定する方法を知っている人はいますか?

たとえば、「IP-Address」属性には、Math.Pow(255,4) の可能な離散値を含めることができます。「QueryString」属性は、可能な値を無限に持つことができます...など。

C4.5 アルゴリズムは、属性が 100,000 個の個別の個別の値を持つ場合、または正確な境界が不明で近似値のみが既知である場合を処理できますか?

ありがとう。

4

1 に答える 1

2

通常の選択は、トレーニング セットで発生する個別の特徴のすべての値を列挙することです。アルゴリズムは、トレーニング中に見られない値の十分な統計を収集できないため、それらをどのように実装しても無視されます。

とにかく、そのような機能の統計を収集するのは非常に難しいので、別の表現について考えたいと思うかもしれません. 特に、テキストの複数単語の文字列をトークン化して、単語の袋として扱うことができます。

于 2013-05-02T14:02:51.910 に答える