CMU Sphinx のレコグナイザーの出力 (つまり、リスト < 仮説 (つまり、句)、スコア (対数) > test_ps_nbest.c を微調整して取得) を次の形式に変換しようとしています: リスト < 仮説 (つまり、句)、「確率」 (間0 と 1) >
私が現在使用している簡単な方法は次のとおりです。
- 各信頼スコアを言語の重みで割ります (例: 11)
- ログドメインの信頼スコアのリストを正規化します
- 出力確率 = exp(正規化された信頼スコア)
問題は、上記の方法からの出力確率が偏っていることです。確率の偏りを得るために使用できる提案はありますか?
バイアスを修正するために実装する必要があるメソッドの例:
vector < double > getBias(vector < string > phrases, vector < double > logConfidenceScores)
上記の説明の入力例:
< "HE GOT IN OUR HEAD HEART LUNG AND HE MARKED IT", -43278 >
< "彼は私たちのクラスでお金を手に入れ、それをマークしました", -43449 >
< 彼は心臓の肺に力を入れ、それをマークしました", -43368 >