Gutenberg コーパスのサブセットのトライグラム モデルを計算するために、SRILM の ngram-count コマンド ライン ユーティリティを使用しています。コマンドラインは次のとおりです。
-order 3 -kndiscount -text {$text} -lm {$lm} -gt2min 10 -gt3min 5 -vocab {$vocab} -unk
ただし、私の行のいくつかは割引率が 0 になっています (または、少なくともそれが起こっていると私が信じている理由です。
-5.018952 roaming
-4.189117 roar -0.2053203
-4.30369 roared 0 <-- discounted to zero?
これは、-gt1min 0 またはその他の値を使用していて、最小しきい値が実現されている場合にも発生します。これを防ぐにはどうすればよいですか?これを n-gram ベースの FST に変換しようとして、入力文にこれらの単語のいずれかを含む入力を観察しようとすると、問題が発生します。