nlp - この例で音節の区切りを理解して追加する方法は？

Question

私は機械学習とコンピューティングの確率に不慣れです。これは、トレーニングデータによって単語に音節を追加するためのLingpipeの例です。

Given a source model p(h) for hyphenated words, and a channel model p(w|h) defined so that p(w|h) = 1 if w is equal to h with the hyphens removed and 0 otherwise. We then seek to find the most likely source message h to have produced message w by:

    ARGMAXh p(h|w) = ARGMAXh p(w|h) p(h) / p(w)
                   = ARGMAXh p(w|h) p(h)         
                   = ARGMAXh s.t. strip(h)=w p(h)

where we use strip(h) = w to mean that w is equal to h with the hyphenations stripped out (in Java terms, h.replaceAll(" ","").equals(w)). Thus with a deterministic channel, we wind up looking for the most likely hyphenation h according to p(h), restricting our search to h that produce w when the hyphens are stripped out.

音節化モデルを構築するためにそれを使用する方法がわかりません。

以下を含むトレーニングセットがある場合：

a bid jan
a bide
a bie
a bil i ty
a bim e lech

単語を音節化するモデルを作成するにはどうすればよいですか？私は、新しい単語の可能な音節の切れ目を見つけるために何を計算するかを意味します。

最初に何を計算しますか？次に何を計算しますか？例を挙げて具体的に教えてください。

どうもありがとう。

score 3 · Accepted Answer

この記事で説明されている方法は、ノイズの多い値を観察して正しい値を計算できるようにする統計法則に基づいています。言い換えれば、音節化されていない単語はのようにノイズが多いか正しくないであり、目標はおそらく正しい値であるを見つけることです。picnicpic-nic

これはまさにこのトピックに関する優れたビデオレッスンです (1:25 までスクロールしますが、一連の講義は一見の価値があります)。

この方法は単語の区切りに特に役立ちますが、音節化にも使用する人もいます。中国語には、論理構造に対してのみスペース区切り文字がありますが、ほとんどの単語は区切り文字なしで互いに続きます。ただし、各文字は音節であり、例外ではありません。

より複雑な文法を持つ言語は他にもあります。たとえば、タイ語では単語間にスペースはありませんが、各音節は複数の記号で構成されている場合があります (例: สวัสดี-> ) ส-วัส-ดี。ルールベースの音節化は難しいかもしれませんが、可能です。

英語によると、私はマルコフ連鎖とN グラムを気にせず、代わりにかなり良い一致率を与えるいくつかの単純なルールを使用します (ただし、完全ではありません)。

2 つの母音の間の 2 つの子音- c of-fe e、 pic-nic のようにVCCVそれらの間で分割されますが、単一の音を表す「クラスター子音」を除きます: method - od 、 R o- chester、hang-アウト_VC-CV
母音間に 3 つ以上の子音がありますVCCCV- m on-sterまたはchild -re nのようにブレンドを維持しながら分割します (これは、辞書を使わざるを得ないため、最も難しいようです)
2 つの母音の間の 1 つの子音- b a- con 、a-ri dのようにVCV、最初の母音の後で分割されますV-CV
上記のルールには、ブレンドに基づく例外もあります: co ur - age, play-time
2 つの母音が一緒VV- 「クラスター母音」を表すことを除いて、分割されます: p o-e m, but glacier , Earlyer-

最初に「メイン」ルールから始めて、クラスターの母音と子音が分割されるのを防ぐ「ガード」ルールでそれらをカバーします。また、単一の子音が音節になることを防ぐための明らかなガードルールがあります。完了したら、辞書に基づいて別のガードルールを追加します。

nlp - この例で音節の区切りを理解して追加する方法は？

1 に答える 1

Related

Reference