language-model - 言語モデルの評価は未知の単語でどのように機能しますか?

Question

そのため、言語モデルを構築するために、語彙サイズを超えてランク付けされた頻度の低い単語は「UNK」として置き換えられます。

私の質問は、「UNK」に基づいて確率を評価する言語モデルをどのように評価するかということです。テストセットでそのような言語モデルの困惑を評価したいとします。モデルにとって未知の単語について、得られる確率は未知の単語の「バッグ」に基づいて評価されます。

語彙サイズを 1 に設定すると、つまりすべての単語が不明な場合、この何もできない言語モデルの困惑度は 1 になるため、これは問題があるようです。

score 0 · Accepted Answer

このファイルは質問を非常によく説明しています：

つまり、perplexity は、同じ語彙を持つ言語モデル間でのみ比較する必要があります。

1 に答える 1