2

私は Mallet api を使用して Twitter データからトピックを抽出していますが、良いトピックと思われるトピックを既に抽出しています。しかし、私はKの推定に問題に直面しています.

たとえば、K 値を 10 から 100 に固定しました。そのため、データから異なる数のトピックを取得しました。しかし、ここで、どの K が最適かを推定したいと思います。私が知っているいくつかのアルゴリズムがあります

  1. 困惑
  2. 経験的可能性
  3. 限界尤度(調和平均法)
  4. シルエット

K の異なる値で推定するために使用できるメソッド model.estimate() を見つけました。誰かがいくつかのサンプルコードでそれについて考えていますか? ありがとう。

4

1 に答える 1

0

最良のアルゴリズムは人間の判断だと思います。さまざまな数のトピックでトピック モデルを作成し、それらを見て、好きなものを取ります。トピックの数を微調整したい場合があります (たとえば、特定のトピックを 2 つに分割したくない場合や、特定のトピックを別のトピックにマージしたくない場合など)。

于 2015-08-03T12:10:03.893 に答える