私は、タガログ語の形態学的アナライザーに関するプロジェクトに取り組んでいます。タガログ語用に改訂された WordFrame モデルを使用し、Trie データ構造を使用してルールと例に基づくトレーニング セットを「ルート ワード、変換されたワード」の形式で格納します。Java をプログラミング言語として使用し、以下のリンクにあるこの論文を参照として使用しています。
最後のステップの実装に問題があります。
これまでに行ったことは次のとおりです。
- トレーニング セットからテーブル内の単語をセグメント化できる
- ルールを保存できる Trie データ構造を持っている
不明な点:
- ルート ワードから正しい変換されたワードを生成する方法を決定するために、条件付き確率がどのように必要かを理解しています。ただし、学習したルールを適用する方法については少し行き詰まっています。トレーニング セットから確率を取得するにはどうすればよいですか?
- 確率を取得するためにコーパスが本当に必要ですか? それとも、トレーニングセットは十分ですか?
- この場合、「最高の整列確率」はどのように適用されますか?
- 内部母音変化の「o->u」など、学習したルールを保存する場合、Trie には「ou」のみを保存しますか? または、それが由来する語根を含める必要があります。
前もって感謝します。