特定のドメインのデータセットがあります (たとえば、スポーツ - 1 クラス)。私がやりたいのは、Web ページを分類子/クラスタラーにフィードしたときに、そのインスタンス (Web ページ) がスポーツに関連しているかどうかに関係なく結果を取得したいということです。
weka のほとんどの分類器は、LibSVM (ラッパー) を除いて、単項クラスのデータセットを処理できません。私は LibSVM でいくつかのテストを行いましたが、問題は関連のないデータセットでのテスト中にあり、インスタンスが空であっても、それらすべてが正しく分類されます! 助言がありますか?
ここで余弦類似度を使用するとどうなるでしょうか。