tagging - 自動トピックタグ付け用の MALLET - トレーニングデータ付き

Question

すでにタグ付けした文書のコーパスがあります。さまざまなトピックに関連する約 400 個のタグのリストを修正しました。各ドキュメントは、1 つ以上のタグと短いタイトルでタグ付けされています。(私はタイトルのより大きなリストも持っています - ドキュメントに非常に類似したコンテンツが含まれている場合、私はしばしば再利用します)

既存のドキュメントにタグを付けた方法に基づいて、コーパスに追加する新しいドキュメントのタグ/タイトルを (既存のリストから) 提案するインターフェイスを作成したいと考えています。

既存のタグ付きデータがない場合にテキストを分析するのに最適な、確率論的トピックモデル LDA クラスについて読んだことがあります。しかし、既存の作品を組み込む方法がわかりません。

任意の提案をいただければ幸いです。

敬具

スワミ

score 0 · Accepted Answer

タグの提案については、私たちの経験では検索エンジンを使用しているだけで、トピックモデリングは必要ありません。

以下の手順を試してください。

すべてのドキュメントのタイトルと要約にインデックスを設定する
新しいドキュメントのタイトルまたは要約をクエリとして使用してインデックスを検索すると、類似ドキュメントのリストを取得できます。
リストの最初のいくつかの最も類似したドキュメントを使用して、それらのすべてのタグをタグバンドルとして集約します。
タグバンドルを各タグの頻度でソートし、最初に最も頻度の高いタグが最終結果になります

このソリューションは実行可能です。

tagging - 自動トピックタグ付け用の MALLET - トレーニングデータ付き

1 に答える 1

Related

Reference