java - 文字列の確率の計算

Question

文字列に文字が出現する確率を計算したい。たとえば、文字列「test」が与えられた場合、P(test) を取得したいと考えています。

P(test) = p(t) * p(e|t) * p (s|te) * p(t|es)

10 万を超える文字列のさまざまなバイグラム頻度を計算し、それらの発生確率を計算しました。私の質問は、文字列内の n グラムの確率を掛けるだけで、正確な答えが得られるでしょうか、それとも同じものを見つけるためのより良い方法がありますか?

どんな助けでも大歓迎です。

score 1 · Accepted Answer

バイグラムを使用すると、2 次マルコフ連鎖と同じくらい正確な答えが得られます。このような単純なモデルの結果は驚くほど良好ですが、もちろん、より表現力の高いモデルを使用すると、さらに優れた結果が得られます。たとえば、言語モデリングでは、隠れマルコフモデル (HMM)が非常によく使用されます。

1 に答える 1