9

Microsoft はかなりの数の音声認識製品を提供しているようですが、それらすべての違いを知りたいです。

  • Microsoft Speech API、または SAPIがあります。しかし、どういうわけかMicrosoft Cognitive Service Speech APIは同じ名前を持っています。

  • さて、Azure 上の Microsoft Cognitive Service は、Speech サービス APIBing Speech APIを提供します。音声からテキストへの変換については、両方の API が同じであると想定しています。

  • そして、System.Speech.Recognition (またはデスクトップ SAPI)、Microsoft.Speech.Recognition (またはサーバー SAPI)、およびWindows.Media.Speech.Recognitionがあります。ここここには、3つの違いに関するいくつかの説明があります. しかし、私の推測では、これらは HMM に基づく古い音声認識モデルであり、別名ニューラル ネットワーク モデルではなく、3 つすべてがインターネット接続なしでオフラインで使用できるのではないでしょうか?

  • Azure 音声サービスと bing 音声 API の場合、それらはより高度な音声モデルですよね? ただし、すべてサブスクリプションの確認が必要なため、ローカル マシンでオフラインで使用する方法はないと思います。(Bing APIにはC#デスクトップライブラリがあるようです..)

基本的に、複数の話者を認識してタイムスタンプ (またはタイムコード化された出力) を出力する、会話データ (音声録音ごとに 5 ~ 10 分) に対して、音声からテキストへの文字起こしを行うオフラインモデルが必要です。私は今、すべてのオプションに少し混乱しています。誰かが私に説明してくれれば大歓迎です、どうもありがとう!

4

1 に答える 1