問題タブ [microsoft-speech-api]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - FFMPEG へのオーディオ ストリームの入力
C# と ffmpeg.exe を使用してリアルタイム チャット アプリケーションを構築しています。私の要件は、Microsoft Speech API からメモリ ストリームを取得し、リアルタイムで ffmpeg プロセスにフィードすることです。Microsoft Speech API からメモリ ストリームを取得できます。次のコードを使用してメモリ ストリームを作成しています。
ビデオコンテンツをffmpegにフィードするために、別のコマンドで別のデータパイプをすでに使用しています。しかし、データパイプを介してオーディオをフィードするための安定したソリューションを見つけることができませんでした。この記事では、オーディオ データパイプについて簡単に説明します。次のコマンドを使用してオーディオをストリーミングしています。
しかし、データパイプでは機能していません。mp3またはwavファイルでコマンドを試すと、機能します。
speech-recognition - Microsoft Speech 製品/プラットフォームの違い
Microsoft はかなりの数の音声認識製品を提供しているようですが、それらすべての違いを知りたいです。
Microsoft Speech API、または SAPIがあります。しかし、どういうわけかMicrosoft Cognitive Service Speech APIは同じ名前を持っています。
さて、Azure 上の Microsoft Cognitive Service は、Speech サービス APIとBing Speech APIを提供します。音声からテキストへの変換については、両方の API が同じであると想定しています。
そして、System.Speech.Recognition (またはデスクトップ SAPI)、Microsoft.Speech.Recognition (またはサーバー SAPI)、およびWindows.Media.Speech.Recognitionがあります。こことここには、3つの違いに関するいくつかの説明があります. しかし、私の推測では、これらは HMM に基づく古い音声認識モデルであり、別名ニューラル ネットワーク モデルではなく、3 つすべてがインターネット接続なしでオフラインで使用できるのではないでしょうか?
Azure 音声サービスと bing 音声 API の場合、それらはより高度な音声モデルですよね? ただし、すべてサブスクリプションの確認が必要なため、ローカル マシンでオフラインで使用する方法はないと思います。(Bing APIにはC#デスクトップライブラリがあるようです..)
基本的に、複数の話者を認識してタイムスタンプ (またはタイムコード化された出力) を出力する、会話データ (音声録音ごとに 5 ~ 10 分) に対して、音声からテキストへの文字起こしを行うオフラインモデルが必要です。私は今、すべてのオプションに少し混乱しています。誰かが私に説明してくれれば大歓迎です、どうもありがとう!