0

分類にはwekaを使用しています。wekaでは、SMOを使用してドキュメントを分類しています。状況によっては、SMOが間違ったカテゴリを返します。

たとえば、2つのカテゴリのコンピュータとクリケットを取り上げます。最初に、これら2つのカテゴリのモデルをトレーニングして作成しました。次に、両方のカテゴリに50:50の比率で関連するコンテンツを含むドキュメントをテストします。SMOは、最初のカテゴリのコンピューターのみを返します。50:50の比率の場合、両方のカテゴリを返す必要があります。

SMO分類器でマルチクラス分類を実現する方法は?

4

2 に答える 2

1

通常、分類器は1つの結果を返します。私があなたの質問を理解していることから、あなたはdistributionForInstanceが必要です。このメソッドは、クラスの確率を提供します。あなたの例では、確率の1/2と1/2を取得する必要があります。

あなたが言及する

はい、その方法からのみ私は間違った確率を得ています。コンピュータークラスの場合は0.63、クリケットの場合は0.36を取得しています。しかし、内容と単語数は両方のカテゴリーで同じです

あなたの解釈の問題は、クラスの確率が内容と単語の数だけから来ることを期待しているということです。これは、たとえば単純ベイズ分類器には当てはまりますが、他の分類器には一般的に当てはまりません。単純ベイズで同じ分類を試みると、予想される確率が表示される場合があります。

クラス確率は、SVMのサポートベクターに従って与えられます。これは、0.63の確率クラスがサポートベクターに従ってより可能性が高いことを意味します。

于 2012-08-24T13:18:34.173 に答える
0

人々が異なる用語を使用する可能性があることは知っていますが、あなたの問題で最も一般的に受け入れられている用語は「マルチラベル分類」(https://en.wikipedia.org/wiki/Multi-label_classification)です。

マルチクラス分類について言及しているウィキペディアの記事が間違って書かれている、または同様の方法を使用しているのは別のドメインの用語だと思います。

マルチラベル分類は、データポイントを複数の可能なクラスに分類することを意味するマルチラベル分類とは対照的に、通常、データポイントを可能な多くの(> 2)クラスの1つにのみ分類することを意味します。

Mekaを見ることができます-いくつかのマルチラベル分類子が実装されたWekaの拡張です。wekaを使用したいのはわかっていますが、そうでない場合は、マルチラベルlibsvmを試すことができます。

于 2012-09-28T20:38:32.880 に答える