2

を使用して音声からテキストに変換するアプリケーションを開発しましたSAPI 5.1

精度が低すぎるため、独自の文法を作成することにしました。1から10までの数字しか認識しない独自の文法を作成しました。

再び精度に失敗しました。それで、私は文法ファイルを深く掘り下げました。発音に使われるLexionFileを調べました。だから私の質問は

  1. レキシコンファイルは精度を向上させますか?Lexiconファイルで1から10までの数字の発音を使用して、それを使用できるようにします。

  2. レキシコンファイルの作成方法に関するテンプレートが必要です。

4

1 に答える 1

0

音声認識の精度が低い場合は、次のいずれかの理由が考えられます。

  1. 十分なトレーニングデータがありません-話者に依存する音声認識システム(1人の話者のみに関連付けられている)を作成するには、各単語の単位が多数(この場合は1〜10)必要であることに注意してください。初期モデルをトレーニングするには個々のユニットが必要ですが、モデルをさらに改善するには、埋め込まれたトレーニングデータが必要になる場合があります。

  2. 話者に依存しない音声認識モデルには、さらに多くのデータが必要になります。

  3. テストデータとトレーニングデータの間に不一致があります。ノイズのないデータやアクセントのあるデータを使用してモデルを作成した場合、ノイズの多いデータやアクセントの異なるデータでテストすると、良い結果が得られない場合があります。

しかし、あなたが構築しようとしている音声認識システムについてのより多くの詳細はより良いでしょう。

更新1:コメントでMicrosoft Speech SDKを使用していると述べているので、ここにサウンド/アクセントに関するSpeechSDKのトレーニングガイドを示します。指示に従うだけで、準備が整います。

于 2011-07-04T06:44:53.680 に答える