現在、テキスト分類を行っています。用語-頻度ベクトルを使用するよりも TF-IDF が悪い状況はありますか? それを説明する方法は?ありがとう
1278 次
1 に答える
0
どちらの測定基準も、情報性 (IDF) とアバウト性 (TF) の 2 つの次元で区別されます。
高いIDF用語が何百回も出現するドキュメントは、貧弱でノイズの多い一致になります...例. スパム文書
よく読んで -言葉の袋を越えて(Donald A. Metzler Jr. 2007)
于 2013-04-04T12:23:21.700 に答える