問題タブ [microsoft-speech-platform]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
speech-recognition - Microsoft Speech SDK での単一文字の使用
ちょうど文字を使っていたら、DがBと混同し、多くの文字が他の文字と混同されていたので、正しく機能していなかった文字を単語または名前に置き換えましたが、ご覧のとおり、半分です彼ら。たとえば、「B」と混同せずに「D」と言うことができる解決策があるかどうか疑問に思っていましたか?
speech-recognition - Microsoft Speech 製品/プラットフォームの違い
Microsoft はかなりの数の音声認識製品を提供しているようですが、それらすべての違いを知りたいです。
Microsoft Speech API、または SAPIがあります。しかし、どういうわけかMicrosoft Cognitive Service Speech APIは同じ名前を持っています。
さて、Azure 上の Microsoft Cognitive Service は、Speech サービス APIとBing Speech APIを提供します。音声からテキストへの変換については、両方の API が同じであると想定しています。
そして、System.Speech.Recognition (またはデスクトップ SAPI)、Microsoft.Speech.Recognition (またはサーバー SAPI)、およびWindows.Media.Speech.Recognitionがあります。こことここには、3つの違いに関するいくつかの説明があります. しかし、私の推測では、これらは HMM に基づく古い音声認識モデルであり、別名ニューラル ネットワーク モデルではなく、3 つすべてがインターネット接続なしでオフラインで使用できるのではないでしょうか?
Azure 音声サービスと bing 音声 API の場合、それらはより高度な音声モデルですよね? ただし、すべてサブスクリプションの確認が必要なため、ローカル マシンでオフラインで使用する方法はないと思います。(Bing APIにはC#デスクトップライブラリがあるようです..)
基本的に、複数の話者を認識してタイムスタンプ (またはタイムコード化された出力) を出力する、会話データ (音声録音ごとに 5 ~ 10 分) に対して、音声からテキストへの文字起こしを行うオフラインモデルが必要です。私は今、すべてのオプションに少し混乱しています。誰かが私に説明してくれれば大歓迎です、どうもありがとう!