1

Sphinx IIを使用して音声認識クライアントを実装しようとしています。私の目標は、誰かにテキストで書かれた文章を読んでもらい、各単語の信頼スコアを取得することです。そのために、私は有限状態文法と限定辞書を使用しています。
何かが機能するようになりましたが、信頼スコアは非常に低くなっています(<0.30)。Sphinx 2の単純なRecoの例と同じ設定を使用しています。発音される単語ごとに1つの可能性しかないため(各単語は文法の1つの状態です)、通常は高いスコアと時間効率の良い認識が必要ですが、仮説の計算には時間がかかります。また、単語が発音されるとすぐに仮説が立てられます。だから今、私はこれを改善するためにどこに行くべきか実際にはわかりません。私はこの種の問題に適切な解決策を使用していますか?代わりに言語モデルを使用する必要があります。使用する場合は、コンテキストをストーリー内の特定の文に制限する方法を教えてください。

また、スフィンクストレーナーを使用する必要がありますか?これまで、Webツールを使用して言語モデル/辞書を生成してきました。

あなたの助けをいただければ幸いです。ありがとう、Boris Gougeon

4

0 に答える 0