0

Gutenberg コーパスのサブセットのトライグラム モデルを計算するために、SRILM の ngram-count コマンド ライン ユーティリティを使用しています。コマンドラインは次のとおりです。

 -order 3 -kndiscount -text {$text} -lm {$lm} -gt2min 10 -gt3min 5 -vocab {$vocab} -unk

ただし、私の行のいくつかは割引率が 0 になっています (または、少なくともそれが起こっていると私が信じている理由です。

-5.018952   roaming
-4.189117   roar    -0.2053203
-4.30369    roared  0    <-- discounted to zero?

これは、-gt1min 0 またはその他の値を使用していて、最小しきい値が実現されている場合にも発生します。これを防ぐにはどうすればよいですか?これを n-gram ベースの FST に変換しようとして、入力文にこれらの単語のいずれかを含む入力を観察しようとすると、問題が発生します。

4

1 に答える 1

0

このチュートリアル (17 ページ)によると、参照している数値はバックオフの重みです。詳細については、こちらをご覧ください

于 2012-10-30T16:37:34.190 に答える