windows-10 - Microsoft 音声認識のデフォルトと API

Question

Windows 10 で Microsoft Speech Recognition を使用して、トレーニング演習を行い、テキストをワードパッドに口述して修正し、辞書に単語を追加するなどを行ってきました。このソフトウェアを使用して .wav ファイルを転写したいと考えています。Windows Speech Recognition API を使用してこれを行うことができるようですが、これには独自の文法ファイルを作成してロードする必要があるようです。これは、基本的に、同じ構成要素を使用するが別の新しい音声認識エンジンを作成することを示唆しています。スタートメニューの「音声認識の開始」をクリックすると実行されるプログラムから。特に、トレーニングや構成の違いにより、パフォーマンスが異なります。

私はこれで間違っていますか？そうでない場合、デフォルトの音声認識エンジンが使用するすべてのデータを取得して、その動作を正確に再現できる方法はありますか? .wav ファイルを書き起こすために、独自の文法ファイルと個別のトレーニング履歴などを使用して個別の音声認識エンジンを作成する必要がある場合は、それで十分ですが、ここで何が起こっているのかをよりよく理解したいと思います.

score 0 · Accepted Answer

Woundifyオープンソースプロジェクトには、wav ファイルとテキスト (STT) への変換方法の例が含まれています。

windows-10 - Microsoft 音声認識のデフォルトと API

1 に答える 1

Related

Reference