すでにタグ付けした文書のコーパスがあります。さまざまなトピックに関連する約 400 個のタグのリストを修正しました。各ドキュメントは、1 つ以上のタグと短いタイトルでタグ付けされています。(私はタイトルのより大きなリストも持っています - ドキュメントに非常に類似したコンテンツが含まれている場合、私はしばしば再利用します)
既存のドキュメントにタグを付けた方法に基づいて、コーパスに追加する新しいドキュメントのタグ/タイトルを (既存のリストから) 提案するインターフェイスを作成したいと考えています。
既存のタグ付きデータがない場合にテキストを分析するのに最適な、確率論的トピック モデル LDA クラスについて読んだことがあります。しかし、既存の作品を組み込む方法がわかりません。
任意の提案をいただければ幸いです。
敬具
スワミ