machine-learning - CMU Sphinx の信頼スコアを確率に変換する際のバイアス

Question

CMU Sphinx のレコグナイザーの出力 (つまり、リスト < 仮説 (つまり、句)、スコア (対数) > test_ps_nbest.c を微調整して取得) を次の形式に変換しようとしています: リスト < 仮説 (つまり、句)、「確率」 (間0 と 1) >

私が現在使用している簡単な方法は次のとおりです。

問題は、上記の方法からの出力確率が偏っていることです。確率の偏りを得るために使用できる提案はありますか?

バイアスを修正するために実装する必要があるメソッドの例:

vector < double > getBias(vector < string > phrases, vector < double > logConfidenceScores)

上記の説明の入力例:

< "HE GOT IN OUR HEAD HEART LUNG AND HE MARKED IT", -43278 >

< "彼は私たちのクラスでお金を手に入れ、それをマークしました", -43449 >

< 彼は心臓の肺に力を入れ、それをマークしました", -43368 >

score 1 · Accepted Answer

A trivial method which I am using now is as follows:
Divide each confidence score by language weight (eg: 11)

まず第一に、それは信頼スコアではなくスコアです。なぜ分けますか？リストのスコアも音響スコアです。言語の重みはここでは意味がありません

Normalize the list of confidence score in log domain

これも、説明できない巨大な確率質量があるため、無意味なことです。

Output probability = exp(normalized confidence score)

アクションのシーケンスには数学的な意味はありませんが、良い結果が得られなかったのは不思議ではありません。

発話ごとの信頼スコアが必要な場合は、最初に理論を確認することをお勧めします。

1 に答える 1