cluster-analysis - Mallet を使用して LDA に最適な K を評価するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/31729227 2015-07-30T16:26:28.130

1712 次

2

私は Mallet api を使用して Twitter データからトピックを抽出していますが、良いトピックと思われるトピックを既に抽出しています。しかし、私はKの推定に問題に直面しています.

たとえば、K 値を 10 から 100 に固定しました。そのため、データから異なる数のトピックを取得しました。しかし、ここで、どの K が最適かを推定したいと思います。私が知っているいくつかのアルゴリズムがあります

困惑
経験的可能性
限界尤度（調和平均法）
シルエット

K の異なる値で推定するために使用できるメソッド model.estimate() を見つけました。誰かがいくつかのサンプルコードでそれについて考えていますか? ありがとう。

1 に答える 1

0

最良のアルゴリズムは人間の判断だと思います。さまざまな数のトピックでトピックモデルを作成し、それらを見て、好きなものを取ります。トピックの数を微調整したい場合があります (たとえば、特定のトピックを 2 つに分割したくない場合や、特定のトピックを別のトピックにマージしたくない場合など)。

于 2015-08-03T12:10:03.893 に答える