4

音声制御アプリのアイデアがいくつかあります。残念ながら、Siri と Google Voice Actions から見た限りでは、この技術はまだ完成していないようです。完全に静かな環境でも、精度が非常に悪いため、電話に入力するのがはるかに簡単に感じることがよくあります.

タスクを簡単にする 1 つの方法は、サウンドをサービスに渡してテキストを返すだけではなく、システムをいくつかのコマンドに制限することです。

だから私が持っている要件は次のとおりです。

  • 限られたコマンドセットで作業するように求められたときの非常に高い精度
  • モバイル デバイスで動作することが望ましいですが、PC のみのライブラリも役立つ場合があります。
  • ここでもオフラインが望ましいですが、必須ではありません
  • オープンソースである必要はありません - ライセンスは問題ありません

そのような API またはソフトウェアは存在しますか?

4

4 に答える 4

4

私は最近、次の機能を備えたモバイル文法ベースの音声認識アプリケーションのプラットフォームを開発するプロジェクトに携わっています。

すべてのコンポーネントはオープン ソースであり、言語の音響モデルがあれば、独自のサーバーをセットアップしてシステムをその言語に移植するのはそれほど難しくありません。

于 2012-09-24T22:16:05.903 に答える
1

VoiceXMLとSRGSは、検索の開始点として適している場合があります。悲しいことに、オープンソースの世界にはそれほど多くはありません。なぜなら、この種のものを「正しく」取得することは、大きな給料日を意味するからです。

于 2012-09-24T03:45:50.970 に答える
1

音声認識用のほとんどのクラウドベースの API (Google、AT&T、Siri など) では、カスタムSRGS文法を使用して精度を向上させることはできません。それは本当に残念です。

1 つの可能性は、 Voxeoの2 つの技術、つまりTropoPhonoを組み合わせることです。前者は API ベースの音声プラットフォームで、VoiceXML プラットフォームよりもはるかに使いやすく、後者はブラウザから音声通話を発信 (および制御) するための jQuery プラグインです。Tropo は SRGS 文法をサポートしています。

于 2012-09-24T14:09:15.327 に答える
1

文法をサポートする音声認識システム ( SRGS ) を使用すると、認識率が向上します。文法は、音声認識システムが一致を取得するために使用するルールとして予想される単語やフレーズを指定することで検索スペースを制限するため、パフォーマンスと認識率を向上させることができます。

VoiceXMLは、対話モードとして電話を使用する音声アプリケーションの開発に適した言語です。電話をインタラクションのモードとして使用するとは、ユーザーが実際にIVR システムをダイヤルして通話に応答し、録音されたオーディオ プロンプトと音声または電話のキーパッド入力によるユーザー入力によってユーザーとのインタラクションを開始することを意味します。VoiceXML は、ネイティブの Android アプリケーションや Web アプリケーションのようなビジュアル インターフェイスを持つモバイル アプリケーション向けではありません。音声を使用するビジュアル アプリケーションを開発するには、 Nuance のモバイル ツール のようなものを使用できます。またはSphinxのようなオープンソース。

于 2012-09-24T13:12:21.920 に答える