文字列に文字が出現する確率を計算したい。たとえば、文字列「test」が与えられた場合、P(test) を取得したいと考えています。
P(test) = p(t) * p(e|t) * p (s|te) * p(t|es)
10 万を超える文字列のさまざまなバイグラム頻度を計算し、それらの発生確率を計算しました。私の質問は、文字列内の n グラムの確率を掛けるだけで、正確な答えが得られるでしょうか、それとも同じものを見つけるためのより良い方法がありますか?
どんな助けでも大歓迎です。
文字列に文字が出現する確率を計算したい。たとえば、文字列「test」が与えられた場合、P(test) を取得したいと考えています。
P(test) = p(t) * p(e|t) * p (s|te) * p(t|es)
10 万を超える文字列のさまざまなバイグラム頻度を計算し、それらの発生確率を計算しました。私の質問は、文字列内の n グラムの確率を掛けるだけで、正確な答えが得られるでしょうか、それとも同じものを見つけるためのより良い方法がありますか?
どんな助けでも大歓迎です。
バイグラムを使用すると、2 次マルコフ連鎖と同じくらい正確な答えが得られます。このような単純なモデルの結果は驚くほど良好ですが、もちろん、より表現力の高いモデルを使用すると、さらに優れた結果が得られます。たとえば、言語モデリングでは、隠れマルコフ モデル (HMM)が非常によく使用されます。