0

トピックモデリング(LDA)を実行するためにMALLETを使用しています。

データセットで 20 のトピックを検出しようとしました結果は次のとおりです (この質問ではキーワードのリストは重要ではありません)。

0   0.05013 list_of_topic_keywords_0
1   0.06444 list_of_topic_keywords_1
2   0.04946 list_of_topic_keywords_2
3   0.14458 list_of_topic_keywords_3
4   0.09248 list_of_topic_keywords_4
5   0.04865 list_of_topic_keywords_5
6   0.0977  list_of_topic_keywords_6
7   0.0653  list_of_topic_keywords_7
8   0.04557 list_of_topic_keywords_8
9   0.07494 list_of_topic_keywords_9
10  0.03577 list_of_topic_keywords_10
11  0.02867 list_of_topic_keywords_11
12  0.04184 list_of_topic_keywords_12
13  0.05251 list_of_topic_keywords_13
14  0.04231 list_of_topic_keywords_14
15  0.03207 list_of_topic_keywords_15
16  0.13064 list_of_topic_keywords_16
17  0.04922 list_of_topic_keywords_17
18  1.0515  list_of_topic_keywords_18
19  0.04922 list_of_topic_keywords_19

各行の 2 番目の数値 (たとえば、行 0 の 0.05013) がディリクレ パラメータを表していることを読みました。この数字はトピックの重要性 (ドキュメント全体の存在) を表していると考え、合計は 1 になるはずだと考えました。

しかし、そうではありません!値が 1.0515 であるトピック 18 のみを調べます。

このパラメータが実際に何を表しているのか、特定のトピックで 1 よりも大きい理由を説明してもらえますか?

前もって感謝します

4

1 に答える 1

2

ディリクレのパラメータは正の実数に制限されているためです。それらはプロポーションではありません。ディリクレからのサンプルはプロポーションです (シンプレックスでサポートされています)。

最初に確認する場所: https://en.wikipedia.org/wiki/Dirichlet_distribution

サイズは相対的な重要性を反映しています。ディリクレ パラメータの合計で特定のパラメータを正規化すると、比率の期待値が得られますが、これが比率であると誤解しないでください。

于 2014-10-07T16:02:35.550 に答える