問題タブ [microsoft-speech-api]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

77 問題

0 投票する

1 に答える

1209 参照

c# - FFMPEG へのオーディオストリームの入力

C# と ffmpeg.exe を使用してリアルタイムチャットアプリケーションを構築しています。私の要件は、Microsoft Speech API からメモリストリームを取得し、リアルタイムで ffmpeg プロセスにフィードすることです。Microsoft Speech API からメモリストリームを取得できます。次のコードを使用してメモリストリームを作成しています。

ビデオコンテンツをffmpegにフィードするために、別のコマンドで別のデータパイプをすでに使用しています。しかし、データパイプを介してオーディオをフィードするための安定したソリューションを見つけることができませんでした。この記事では、オーディオデータパイプについて簡単に説明します。次のコマンドを使用してオーディオをストリーミングしています。

しかし、データパイプでは機能していません。mp3またはwavファイルでコマンドを試すと、機能します。

c#ffmpeg microsoft-speech-api

2018-02-08T06:26:33.590

0 投票する

1 に答える

1769 参照

speech-recognition - Microsoft Speech 製品/プラットフォームの違い

Microsoft はかなりの数の音声認識製品を提供しているようですが、それらすべての違いを知りたいです。

Microsoft Speech API、または SAPIがあります。しかし、どういうわけかMicrosoft Cognitive Service Speech APIは同じ名前を持っています。
さて、Azure 上の Microsoft Cognitive Service は、Speech サービス APIとBing Speech APIを提供します。音声からテキストへの変換については、両方の API が同じであると想定しています。
そして、System.Speech.Recognition (またはデスクトップ SAPI)、Microsoft.Speech.Recognition (またはサーバー SAPI)、およびWindows.Media.Speech.Recognitionがあります。こことここには、3つの違いに関するいくつかの説明があります. しかし、私の推測では、これらは HMM に基づく古い音声認識モデルであり、別名ニューラルネットワークモデルではなく、3 つすべてがインターネット接続なしでオフラインで使用できるのではないでしょうか?
Azure 音声サービスと bing 音声 API の場合、それらはより高度な音声モデルですよね? ただし、すべてサブスクリプションの確認が必要なため、ローカルマシンでオフラインで使用する方法はないと思います。（Bing APIにはC＃デスクトップライブラリがあるようです..）

基本的に、複数の話者を認識してタイムスタンプ (またはタイムコード化された出力) を出力する、会話データ (音声録音ごとに 5 ～ 10 分) に対して、音声からテキストへの文字起こしを行うオフラインモデルが必要です。私は今、すべてのオプションに少し混乱しています。誰かが私に説明してくれれば大歓迎です、どうもありがとう！

speech-recognition speech-to-text microsoft-cognitive microsoft-speech-api microsoft-speech-platform

2018-06-12T17:15:09.123

1 2 3 4 5 6 7 8 9 10

問題タブ [microsoft-speech-api]

c# - FFMPEG へのオーディオ ストリームの入力

speech-recognition - Microsoft Speech 製品/プラットフォームの違い

Reference

c# - FFMPEG へのオーディオストリームの入力