トピックモデリング(LDA)を実行するためにMALLETを使用しています。
データセットで 20 のトピックを検出しようとしました結果は次のとおりです (この質問ではキーワードのリストは重要ではありません)。
0 0.05013 list_of_topic_keywords_0
1 0.06444 list_of_topic_keywords_1
2 0.04946 list_of_topic_keywords_2
3 0.14458 list_of_topic_keywords_3
4 0.09248 list_of_topic_keywords_4
5 0.04865 list_of_topic_keywords_5
6 0.0977 list_of_topic_keywords_6
7 0.0653 list_of_topic_keywords_7
8 0.04557 list_of_topic_keywords_8
9 0.07494 list_of_topic_keywords_9
10 0.03577 list_of_topic_keywords_10
11 0.02867 list_of_topic_keywords_11
12 0.04184 list_of_topic_keywords_12
13 0.05251 list_of_topic_keywords_13
14 0.04231 list_of_topic_keywords_14
15 0.03207 list_of_topic_keywords_15
16 0.13064 list_of_topic_keywords_16
17 0.04922 list_of_topic_keywords_17
18 1.0515 list_of_topic_keywords_18
19 0.04922 list_of_topic_keywords_19
各行の 2 番目の数値 (たとえば、行 0 の 0.05013) がディリクレ パラメータを表していることを読みました。この数字はトピックの重要性 (ドキュメント全体の存在) を表していると考え、合計は 1 になるはずだと考えました。
しかし、そうではありません!値が 1.0515 であるトピック 18 のみを調べます。
このパラメータが実際に何を表しているのか、特定のトピックで 1 よりも大きい理由を説明してもらえますか?
前もって感謝します