私は、ユーザーが事前定義されたテキストを読み上げ、音声認識エンジンを使用して彼の発言のトランスクリプトを作成するアプリケーションを開発しています。次に、結果を定義済みのテキストと比較して、彼が読んでいる文またはテキストの一部を見つけます。
Nuance NDev を音声認識エンジンとして使用していましたが、現在はコストがかかりすぎるため、別の代替手段を探しています。
そこで、.NET 音声認識エンジンを試してみましたが、これを実現する方法を見つけることができませんでした。
私のテストから:
口述文法は、ユーザーが発するすべての単語を翻訳するので優れていますが、結果は非常に混沌としていて、一致するものを見つけることはほとんど不可能です。
GrammarBuilder と Choises クラスの組み合わせは、コマンド => アクション タイプのものに似ており、ユーザーが言うすべての単語を翻訳するわけではなく、特定の 1 つの単語/コマンドを検索して出力するだけです。
だから私が疑問に思っていたのは、口述のような動作で文法を取得する方法があるかどうかですが、定義済みのテキスト内のすべての単語のように、単語のサブセットのみを使用するか、認識エンジンを支援するために単語/文を設定できるようにする方法があるかどうかです。 .
たとえば、エンジンにこの事前定義されたテキストを与える場合:
ある朝、グレゴール・ザムザが厄介な夢から覚めたとき、彼は自分のベッドで自分が恐ろしい害獣に変身していることに気付きました。アーチによって硬い部分に分けられます。
このテキストからのみ単語を返すことができます。そのため、認識がより簡単かつ正確になります。
これまたは他の代替手段を実現する方法について何かアイデアがあれば、私はすべて聞いています。唯一の制限は、英語とフランス語をサポートする必要があることです。
ありがとう。