WindowsCE音声対応アプリケーションを開発するために利用可能な音声認識エンジンとSDKを調査しようとしています。私はニュアンスに出くわしましたが、他には何も見えません。可能であれば.NetSDKを使用したいと思いますが、ほとんどはC /C++だと思います。何か提案をいただければ幸いです。ありがとう。
5 に答える
私は IVR アプリケーションを扱っています。Nuance に加えて、現在 Microsoft、IBM、Lumenvox を評価しています。
ほとんどの携帯電話に搭載されている音声認識アプリケーションは、音声入力を以前に話されたフレーズと照合するように設計されています。たとえば、"Joe" というフレーズをアドレス帳のエントリに割り当て、"Joe" と言うとそのアドレス帳のエントリに電話をかけるようにします。より強力な音声認識エンジンは、フレーズを音素に分解し、音響レポジトリと照合して実際に話された内容を把握することにより、自由形式の音声を解読しようとします。本格的な音声認識エンジンには、かなりの量の CPU 処理能力が必要です。モバイル デバイスで音声認識を使用して複雑なことを行うには、おそらくデバイスからサーバーにデータを送信して処理する必要があります。
ニュアンスは基本的にすべての人を買収しました。彼らはスピーチ市場を支配しています、私は恐れています...
この技術を扱っている会社は他にもいくつかありますが、組み込み市場でどれだけうまくいっているかはわかりません。telismaとLoquendoがあり、どちらも英語以外の存在感が強い (英語も悪くない)。
それからまだIBMがあります。彼らはViaVoice Embeddedを持っています。
業界が待ち望んでいる大きなことの 1 つは、Microsoft による TellMeの買収から何が生まれるかを見ることですが、TellMe が行ってきた処理を「クラウド」にプッシュする代わりに、組み込み市場から遠ざかる可能性があると思います。長い間。
MicrosoftのSpeechAPI、http://msdn.microsoft.com/en-us/library/ms897381.aspxを調べてみてください
CEデバイスで動作すると思います。
オープン ソース プロジェクトのCMU Sphinxもあります。それらには、ポータブル デバイスを対象とした PocketSphinx と呼ばれる亜種があります。
上記の私のコメントの 1 つで述べたように、Vangard Voice Systems の音声認識 .Net SDK を試しています。Nuance の Vocon3200 音声認識エンジンを使用しています。現在、安価なマイクを使用しており、外部ノイズに問題があります。うまくいけば、ノイズキャンセリングヘッドセットで解決されるでしょう. ソフトウェア モデルは、基本的に既存の非音声アプリケーションに接続するという点で少し欠けています。このため、いくつかの制限があり、開発者がアクセスできる API は限られています。このような単純化を試みると、強力なソリューションを作成することがさらに困難になります。そうは言っても、モバイル アプリケーションの音声対応のための .Net SDK のニーズを満たす競合製品を実際に見つけることはできませんでした。
Nuance の C++ SDK (別の会社が .Net ラッパーを作成している) を使用することをお勧めしますが、Nuance のビジネス モデルでは、再販用の製品を開発していることを前提としており、かなりのロイヤリティが発生します。社内アプリケーションを開発したい企業にとっては、本当の障壁です。