これは、言語モデルの構築における Lingpipe doc のマニュアルからのものです。しかし、私はその背後にある理論を部分的にしか理解していません。
特に基底確率はわかりません。
ここでは、ベース p(d) を取得する方法を説明します。以下は、トークンの一部と、ユニグラム ファイル内のその頻度です。
ab 20
aba 3
abd 2
abef 2
abkk 3
このような状況で、lamda()、1-lamda()、extcount、numExtentions、および Base P(ab) とは何ですか? これは 1 つの質問ですが、連鎖しています。
どうもありがとう。