2

Weka StringToWord フィルターで属性を保持する単語の意味は何ですか。本当の結果を得るためには、値が高いほど良いですか、それとも高くない方が良いですか?

4

1 に答える 1

4

一般に、できるだけ多くの単語を保持するために、制限をできるだけ高く設定することをお勧めします。頻度の低い単語は、後で誘導する分類器にわずかに役立つ可能性があります。

あまりにも多くの単語を保持することは、効率の問題で悪い考えのように見えるかもしれません.属性の数が多いほど、モデルの学習に時間がかかります. ただし、関数とメジャーAttributeSelectionでフィルターを使用して、単語をフィルター処理して、最も予測性の高い単語を保持することができます。実際、AttrivuteSelection フィルターのしきい値を操作して、相対的な頻度に依存せずに、比較的少数の非常に予測可能な単語を保持することができます。RankerInfoGainAttributeEval

doNotOperatePerClassBasisさらに、すべてのクラスに関連するすべての単語を保持するために、フラグを true に設定することを忘れないでください。

于 2013-10-05T15:20:51.963 に答える