音声認識に基づくプロトタイプで音声認識と音声合成を開始したい 誰かがマイクロソフトの音声サーバー(SDKなど)を使用するように言った
これを持っている場合、どのようにアプリケーションをプログラミングし、どのプログラミング言語(開発環境?)でプログラミングしますか?
アスタリスクまたはSVOXの経験はありますか?
私はする必要があります:
音声認識音声合成
私は非常に優れた音声認識である必要はありません-最初は30〜50語で十分だと思います。私はウィンドウズで働いています。
前もって感謝します
音声認識に基づくプロトタイプで音声認識と音声合成を開始したい 誰かがマイクロソフトの音声サーバー(SDKなど)を使用するように言った
これを持っている場合、どのようにアプリケーションをプログラミングし、どのプログラミング言語(開発環境?)でプログラミングしますか?
アスタリスクまたはSVOXの経験はありますか?
私はする必要があります:
音声認識音声合成
私は非常に優れた音声認識である必要はありません-最初は30〜50語で十分だと思います。私はウィンドウズで働いています。
前もって感謝します
Microsoft Speech Engineを使用する場合は、.NETFrameworkAPIがあります。他の投稿で述べたように、2つの名前空間があります(デスクトップ用のSystem.Speechとサーバー用のMicrosoft.Speech)。任意の.NET言語でプログラムでき、VisualStudioを使用できます。
数年前にhttp://msdn.microsoft.com/en-us/magazine/cc163663.aspxで公開された非常に優れた記事があります。これはおそらく私がこれまでに見つけた中で最高の紹介記事です。ただし、これはWinFX APIのプレリリースバージョンに基づいており、VistaがリリースされたときにSystem.Speechクラスが変更されました。これらの破壊的なAPIの変更のため、記事のサンプルはコンパイルされません。これを説明するための更新や正誤表は見つかりませんでした。インターネットでメソッド名「 AppendResultKeyValue 」を検索すると、http: //www.ms-news.net/f3012/system-speech-breaking-changes-3025734.htmlのようなフォーラムの投稿がいくつか見つかります。同じ問題。
それはまだ良い入門記事であり、読む価値があります。少しハッキングするだけで、サンプルアプリを動作させることができます。
私が計算言語学を研究したとき、選択したツールはPraatでした。これは、スピーチに関連するほとんどすべてのことを実行できる、ひどく混乱したプロトタイピングツールです。
外部APIはないと思いますが、基本的なアプリケーションには内部スクリプト言語で十分であり、多くの組み込み関数があります。理論とアルゴリズムの「はじめに」については、それほど悪くはありません。