1

私は、タガログ語の形態学的アナライザーに関するプロジェクトに取り組んでいます。タガログ語用に改訂された WordFrame モデルを使用し、Trie データ構造を使用してルールと例に基づくトレーニング セットを「ルート ワード、変換されたワード」の形式で格納します。Java をプログラミング言語として使用し、以下のリンクにあるこの論文を参照として使用しています。

http://www.google.com.ph/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CDAQFjAA&url=http%3A%2F%2Fwww.dlsu.edu.ph%2Fresearch%2Fcenters%2Fadric% 2Fnlp%2FDLSUS%26T-Wordframe.pdf&ei=AyULUfblK8aziQejtoGwDQ&usg=AFQjCNFkzzaLubyrgyOYlOBvvLw3r7isYw&sig2=czsPv7Av1sTbO9DxXmBRYQ&bvm=bv.41867550,d.aGc&cad=rja

最後のステップの実装に問題があります。

これまでに行ったことは次のとおりです。

  1. トレーニング セットからテーブル内の単語をセグメント化できる
  2. ルールを保存できる Trie データ構造を持っている

不明な点:

  1. ルート ワードから正しい変換されたワードを生成する方法を決定するために、条件付き確率がどのように必要かを理解しています。ただし、学習したルールを適用する方法については少し行き詰まっています。トレーニング セットから確率を取得するにはどうすればよいですか?
  2. 確率を取得するためにコーパスが本当に必要ですか? それとも、トレーニングセットは十分ですか?
  3. この場合、「最高の整列確率」はどのように適用されますか?
  4. 内部母音変化の「o->u」など、学習したルールを保存する場合、Trie には「ou」のみを保存しますか? または、それが由来する語根を含める必要があります。

前もって感謝します。

4

0 に答える 0