classification - TFIDF：tfの実装

Question

私は分類ツールを実装しており、さまざまなTFバージョンを試していました。2つの対数（対数呼び出しの内側/外側の補正）、正規化、拡張、および対数平均です。どうやら、これらによって変調された私の分類器の精度には大きな違いがあります-5％もあります。ただし、奇妙なことに、特定のデータセットでどちらが優れているかを事前に言うことはできません。私が見逃している仕事があるのだろうか、あるいは誰かがこれらの仕事の経験を共有できるのだろうか？

score 2 · Accepted Answer

実際、どの重み付けスキームが最適であるかを事前に判断することは非常に困難です。全体として、フリーランチはありません。あるデータセットに最適なアルゴリズムは、別のデータセットにはひどいものになる可能性があります。さらに、ここでは根本的に異なるオプションについて話しているのではありません。TF-IDFは、分類/検索に関する1つの特定の直感を具体化しており、そのさまざまなバリアントはすべて同じようなものです。伝える唯一の方法は実験することです

PS用語に関する注記：有意と言うとき、交差検定またはランダムリサンプリングを使用して統計的有意性検定を実行しましたか？あなたが見ている違いは偶然によるものかもしれません。

classification - TFIDF：tfの実装

2 に答える 2

Related

Reference