1

これは、言語モデルの構築における Lingpipe doc のマニュアルからのものです。しかし、私はその背後にある理論を部分的にしか理解していません。

特に基底確率はわかりません。

ここに画像の説明を入力

ここに画像の説明を入力

ここでは、ベース p(d) を取得する方法を説明します。以下は、トークンの一部と、ユニグラム ファイル内のその頻度です。

ab  20
aba 3
abd 2
abef 2
abkk 3

このような状況で、lamda()、1-lamda()、extcount、numExtentions、および Base P(ab) とは何ですか? これは 1 つの質問ですが、連鎖しています。

どうもありがとう。

4

0 に答える 0