0

優れたテキスト フィルタリングを備えた Naive-Bayes Document 分類を実装しました。統計結果を高い精度で受け入れました。EM アルゴリズムを使用して結果を強化する必要があります。

しかし、単純ベイズの結果に EM アルゴリズムを適用するか、データにアルゴリズムを適用して最初からやり直すかはわかりません。したがって、結果を比較できます。

どちらの場合も、この問題に関する EM アルゴリズムを理解する必要があります。

十分に説明されたドキュメントは高く評価されます

4

1 に答える 1

1

EM は通常、ラベルのないデータを処理するのに役立ちます。ラベルのないデータがある場合、基本的にはこのようなサイクルで使用します

estimate some initial parameters, perhaps even randomly
while not converged:
  relabel data using estimates
  update estimates using new labels

教師あり学習を行っている場合、再ラベル付けのステップによってラベルが吹き飛ばされ、分類が悪化する可能性があります。

一方、これは、テキスト分類のための半教師付きナイーブ ベイについての優れた詳細なチュートリアルです。ラベル付けされたドキュメントの小さなセットとラベル付けされていないドキュメントの大きなセットがある場合、それらを使用して初期パラメーターを推定し、ラベル付けされていないデータに対して反復ステップを実行して、最終的により良い分類器を得ることができます。

于 2012-02-13T03:31:48.780 に答える