Weka StringToWord フィルターで属性を保持する単語の意味は何ですか。本当の結果を得るためには、値が高いほど良いですか、それとも高くない方が良いですか?
2466 次
1 に答える
4
一般に、できるだけ多くの単語を保持するために、制限をできるだけ高く設定することをお勧めします。頻度の低い単語は、後で誘導する分類器にわずかに役立つ可能性があります。
あまりにも多くの単語を保持することは、効率の問題で悪い考えのように見えるかもしれません.属性の数が多いほど、モデルの学習に時間がかかります. ただし、関数とメジャーAttributeSelection
でフィルターを使用して、単語をフィルター処理して、最も予測性の高い単語を保持することができます。実際、AttrivuteSelection フィルターのしきい値を操作して、相対的な頻度に依存せずに、比較的少数の非常に予測可能な単語を保持することができます。Ranker
InfoGainAttributeEval
doNotOperatePerClassBasis
さらに、すべてのクラスに関連するすべての単語を保持するために、フラグを true に設定することを忘れないでください。
于 2013-10-05T15:20:51.963 に答える