私は機械学習とコンピューティングの確率に不慣れです。これは、トレーニングデータによって単語に音節を追加するためのLingpipeの例です。
Given a source model p(h) for hyphenated words, and a channel model p(w|h) defined so that p(w|h) = 1 if w is equal to h with the hyphens removed and 0 otherwise. We then seek to find the most likely source message h to have produced message w by:
ARGMAXh p(h|w) = ARGMAXh p(w|h) p(h) / p(w)
= ARGMAXh p(w|h) p(h)
= ARGMAXh s.t. strip(h)=w p(h)
where we use strip(h) = w to mean that w is equal to h with the hyphenations stripped out (in Java terms, h.replaceAll(" ","").equals(w)). Thus with a deterministic channel, we wind up looking for the most likely hyphenation h according to p(h), restricting our search to h that produce w when the hyphens are stripped out.
音節化モデルを構築するためにそれを使用する方法がわかりません。
以下を含むトレーニングセットがある場合:
a bid jan
a bide
a bie
a bil i ty
a bim e lech
単語を音節化するモデルを作成するにはどうすればよいですか?私は、新しい単語の可能な音節の切れ目を見つけるために何を計算するかを意味します。
最初に何を計算しますか?次に何を計算しますか?例を挙げて具体的に教えてください。
どうもありがとう。