3

みんな。Baum-Welch アルゴリズムを使用して pos tagger をトレーニングしていますが、完全に教師なしの方法です。ここで問題が発生します。ラベルの結果を取得すると、一連の数字しか取得できません。どのラベルが VV、NN、DT を表しているのかわかりません。どうすればこの問題を解決できますか?

4

1 に答える 1

5

一般に、それを行う方法はありません。Baum-Welch は、同様の分布を持つ単語使用のクラスを見つけますが、それらのクラスが、特定の言語理論によって設定されたカテゴリに単純な方法でマッピングされると想定する特別な理由はありません。したがって、教師なし POS タガーは主に、割り当てられている特定のタグではなく、単語やフレーズの等価クラスを気にするアプリケーションに役立ちます。

ただし、人間が判読できるラベルが本当に必要な場合 (たとえば、開発中に、取得した結果が少しでも妥当かどうかを評価するため)、数十の文に手動でタグを付けます。次に、BW から派生したタガーをそのラベル付きミニコーパスに適用して、クラス番号と POS ラベルの間のマッピングを誘導できます。

于 2011-03-10T19:10:44.790 に答える