0

特定のドメインのデータセットがあります (たとえば、スポーツ - 1 クラス)。私がやりたいのは、Web ページを分類子/クラスタラーにフィードしたときに、そのインスタンス (Web ページ) がスポーツに関連しているかどうかに関係なく結果を取得したいということです。

weka のほとんどの分類器は、LibSVM (ラッパー) を除いて、単項クラスのデータセットを処理できません。私は LibSVM でいくつかのテストを行いましたが、問題は関連のないデータセットでのテスト中にあり、インスタンスが空であっても、それらすべてが正しく分類されます! 助言がありますか?
ここで余弦類似度を使用するとどうなるでしょうか。

4

1 に答える 1

3

weka でこのスレッドの単項クラスのテキスト分類を見たことがありますか? そしてこの投稿https://list.scms.waikato.ac.nz/mailman/htdig/wekalist/2007-October/011631.html ?

「スポーツ」ではない別のデータセットに対して分類子を実行すると、「これはスポーツです」など、誤って分類された結果 (つまり、誤検知) が得られることを意味していると思います。

データセットにクラスが 1 つしか含まれていないことは確かですか? データセットに空のインスタンスが含まれていないことを確認しましたか? (嘲笑しないでください、これは以前に私に起こりました)。

前述のスレッドのコメントには、SVM のチューニングに関する PDF へのリンクがあります: http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf - SVM は他の一般的な分類子よりも少し難しいです。

別の方法として、問題を二項分類に切り替えることはできませんか? 良い結果を得る方がはるかに簡単で、ほとんどの問題には、そのクラスにないものの例がたくさんあります。たとえば、スポーツの Web サイトと面白い画像の Web サイト、プログラミングの Web サイトなどです。

PS: 外れ値検出に他のアルゴリズムを使用できます: http://en.wikipedia.org/wiki/Outlier_detection

于 2012-05-13T15:05:02.057 に答える