7

ねえ、これが私の問題です、

ドキュメントのセットが与えられた場合、各ドキュメントを事前定義されたカテゴリに割り当てる必要があります。

n-gramアプローチを使用して各ドキュメントのテキストコンテンツを表現し、次に、所有しているトレーニングデータでSVM分類器をトレーニングしました。
何か理解できなかった場合は訂正してください。

ここでの問題は、カテゴリが動的である必要があるということです。つまり、私の分類器は、新しいカテゴリの新しいトレーニングデータを処理する必要があります。

したがって、たとえば、特定のドキュメントをカテゴリA、カテゴリB、またはカテゴリCとして分類するように分類器をトレーニングした後、カテゴリDの新しいトレーニングデータが与えられた場合、分類器に「カテゴリD」の新しいトレーニングデータ。

要約すると、古いトレーニングデータ(3つのカテゴリ)と新しいトレーニングデータ(新しい/見えないカテゴリ)を組み合わせて、分類器を再度トレーニングしたくありません。分類器をその場でトレーニングしたい

これをSVMで実装することは可能ですか?そうでない場合は、いくつかの分類アルゴリズムをお勧めしますか?または私を助けることができる本/紙。

前もって感謝します。

4

3 に答える 3

8

Naive-Bayesは、比較的高速なインクリメンタル カルシフィケーション アルゴリズムです。
KNNは本質的にインクリメンタルであり、実装と理解がさらに簡単です。

どちらのアルゴリズムも、KNN のNaiveBayesおよびIBkとしてオープン ソース プロジェクトWekaに実装されています。

ただし、個人的な経験から、どちらも多数の非有益な機能に対して脆弱であり (通常、テキスト分類の場合)、これらのアルゴリズムのパフォーマンスを向上させるために、何らかの機能選択が通常使用されます。増分として実装するには問題があります。

于 2012-08-20T06:22:01.867 に答える
1

Edwin Chen によるこのブログ投稿では、クラスタリングを行うための無限混合モデルについて説明しています。この方法はクラスター数の自動決定をサポートしていると思いますが、まだ頭を悩ませようとしています。

于 2012-08-20T02:02:50.660 に答える
0

基準に一致するアルゴリズムのクラスは、「インクリメンタル アルゴリズム」と呼ばれます。ほとんどすべてのメソッドの増分バージョンがあります。最も簡単に実装できるのはナイーブ ベイズです。

于 2012-08-20T05:28:31.783 に答える