3

現在、テキスト分類を行っています。用語-頻度ベクトルを使用するよりも TF-IDF が悪い状況はありますか? それを説明する方法は?ありがとう

4

1 に答える 1

0

どちらの測定基準も、情報性 (IDF) とアバウト性 (TF) の 2 つの次元で区別されます。

高いIDF用語が何百回も出現するドキュメントは、貧弱でノイズの多い一致になります...例. スパム文書

よく読んで -言葉の袋を越えて(Donald A. Metzler Jr. 2007)

于 2013-04-04T12:23:21.700 に答える