私はトピックモデル、分類などは初めてです...今はすでにプロジェクトを行っており、多くの研究論文を読んでいます。私のデータセットは、人間がラベル付けした短いメッセージで構成されています。これは私がこれまでに思いついたものです:
- 私のデータは短いので、ドキュメント内の潜在語を検出するのに役立つ潜在的ディリクレ割り当て (およびそのすべてのバリアント) について読みました。
- これに基づいて、JGibbLDA http://jgibblda.sourceforge.netの Java 実装を見つけましたが、私のデータにはラベルが付けられているため、JGibbLabeledLDA と呼ばれる改善があります https://github.com/myleott/JGibbLabeledLDA
- ほとんどの研究論文で、Weka についての良いレビューを読んだので、データセットでこれをいじりました
- ただし、ここでも、私のデータセットにはラベルが付けられているため、マルチラベル データの実装を持つMeka http://sourceforge.net/projects/meka/と呼ばれる Weka の拡張機能を見つけました。
- マルチラベル データについて読むと、one-vs-all やチェーン分類子など、最もよく使用されるアプローチを知っています...
私がここにいる理由は、次の質問に対する答えを得たいからです。
- LDA は私の問題に対する適切なアプローチですか?
- LDA を分類器 (NB、SVM、バイナリ関連性、ロジスティック回帰など) と一緒に使用する必要がありますか?それとも、LDA は、新しい目に見えないデータの分類器/推定器として機能するのに「十分」ですか?
- JGibbLDA / JGibbLabeledLDA からの出力をどのように解釈する必要がありますか。これらのファイルから、メッセージ全体 (各単語だけでなく) にどの単語/ラベルが割り当てられているかを知るにはどうすればよいですか?
- Weka/Meka を使用して、前の質問で必要なものを取得するにはどうすればよいですか (LDA が探しているものではない場合)
誰か、または複数の人が、これを行う必要がある方法を理解するのを手伝ってくれることを願っています. すべての一般的な考え方はここでは問題ではありません。文学から実践への移行方法がわからないだけです。ほとんどの論文は、実験をどのように実行するかについて十分な説明を提供していないか、トピックに関する私の背景には技術的すぎます.
ありがとう!