Mallet を使用して、定義したトピックごとにさまざまなドキュメントを分類しようとしています。Mallet が最初にトピックを決定し、次にドキュメントを分類することはわかっていますが、最初のステップはスキップしたいと思います。トピックに関連する単語を含むトピックのリストが既にあるからです。Mallet でドキュメントを分類するために作成した定義済みのトピック リストを使用する方法はありますか?
任意のガイダンスをいただければ幸いです。ありがとう!
Mallet を使用して、定義したトピックごとにさまざまなドキュメントを分類しようとしています。Mallet が最初にトピックを決定し、次にドキュメントを分類することはわかっていますが、最初のステップはスキップしたいと思います。トピックに関連する単語を含むトピックのリストが既にあるからです。Mallet でドキュメントを分類するために作成した定義済みのトピック リストを使用する方法はありますか?
任意のガイダンスをいただければ幸いです。ありがとう!
教師なし学習 (トレーニング例、つまり各トピックのドキュメントなし) を行っている場合、トピックを設定するだけでは簡単にはできません。ポイントは、トレーニング アルゴリズムが事前にドキュメントについて何も知らないということです。提供する機能に基づいて、それらを分離/配布しようとするだけです。
教師あり学習を行っている場合、トピックは実際にはクラスであり、クラスごとにドキュメントがあります。次に、アルゴリズムは、各クラスでどの機能が重要かを学習しようとします。mallet では、Classification モジュールを使用する必要があります。
おそらく、特定のキーワードに従ってトピックの分布を組み込んだり歪めたりする、いくつかの凝ったトピック モデリングのアイデアがあると思いますが、Mallet ではそれが可能だとは思いません。