5

ユニグラム言語モデルを使用しています。各ユニグラムの確率を計算したい。ユニグラムの出現回数を個別のユニグラムの数で割りますか、それともすべてのユニグラムの数で割りますか?

4

3 に答える 3

11

トレーニング セット内の単語の出現数など、トークンの総数で割ります。理由は簡単にわかります。異なる単語の数で割った場合、すべての単語の確率の合計が 1 になるとは限らないため、確率分布は形成されません。

于 2013-04-25T23:01:24.847 に答える
2

言語モデリングについての良い入門書は、Jurafsky のスライドです: http://www.stanford.edu/class/cs124/lec/languagemodeling.pdf

于 2013-04-27T00:14:20.687 に答える