1

私は分類のために CV (履歴書) に取り組んでおり、LDA を使用しています。CV(マーケティング、コンピューター、コミュニケーション)の3つの異なる概念を設定(N = 3)で行った結果は良好でした。ここで問題は、財務の概念 (または他の概念) を持つ新しい CV の新しいトピックを (もちろん、既存のトピックに追加することによって) どうすれば作成できるかということです。

実際、私の目標は、毎回新しいトピックを生成して、新しいコンセプトを取得することです。

私は毎日異なるコンセプトで異なる CV を取得しており、分類を自動化するのにどのアルゴリズム (HDP、On_Line LDA) が役立つかについて疑問があります。

4

1 に答える 1

0

LDA やその他のトピック モデルは分類方法ではありません。それらは、教師あり学習のコンテキストにおける次元削減/前処理/同義語発見の方法と見なされるべきです。分類子に対してドキュメントを単語のバッグとして表すのではなく、トピックの事後として表現します。分類タスクに 3 つのクラスがあるからといって、LDA に 3 つのトピックを選択するとは限りません。トピックモデルのパラメーターは、ドキュメントを最適にモデル化するように設定する必要があります (パープレキシティまたはトピックモデルのその他の品質メトリックによって測定されます。他の可能性については、David Mimno の最近の研究を確認してください)、およびトピック確率/事後パラメーターのベクトル (または任意の有用だと思う) を教師あり学習法に与える必要があります。

これは、元の LDA 論文で Blei らが行った実験のセットアップとまったく同じであることがわかります。

于 2014-01-27T11:59:10.187 に答える