android - 音声制御 API - 特定のフレーズで高精度

Question

音声制御アプリのアイデアがいくつかあります。残念ながら、Siri と Google Voice Actions から見た限りでは、この技術はまだ完成していないようです。完全に静かな環境でも、精度が非常に悪いため、電話に入力するのがはるかに簡単に感じることがよくあります.

タスクを簡単にする 1 つの方法は、サウンドをサービスに渡してテキストを返すだけではなく、システムをいくつかのコマンドに制限することです。

だから私が持っている要件は次のとおりです。

限られたコマンドセットで作業するように求められたときの非常に高い精度
モバイルデバイスで動作することが望ましいですが、PC のみのライブラリも役立つ場合があります。
ここでもオフラインが望ましいですが、必須ではありません
オープンソースである必要はありません - ライセンスは問題ありません

そのような API またはソフトウェアは存在しますか?

score 4 · Accepted Answer

私は最近、次の機能を備えたモバイル文法ベースの音声認識アプリケーションのプラットフォームを開発するプロジェクトに携わっています。

文法は文法フレームワークで書かれています。 http://kaljurand.github.com/Grammars/を参照してください。
サーバーはSphinxに基づいています。https ://github.com/alumae/ruby-pocketsphinx-server を参照してください。
サーバーには Android からアクセスできます。https ://code.google.com/p/recognizer-intent/ を参照してください。

すべてのコンポーネントはオープンソースであり、言語の音響モデルがあれば、独自のサーバーをセットアップしてシステムをその言語に移植するのはそれほど難しくありません。

score 1 · Accepted Answer

VoiceXMLとSRGSは、検索の開始点として適している場合があります。悲しいことに、オープンソースの世界にはそれほど多くはありません。なぜなら、この種のものを「正しく」取得することは、大きな給料日を意味するからです。

score 1 · Accepted Answer

音声認識用のほとんどのクラウドベースの API (Google、AT&T、Siri など) では、カスタムSRGS文法を使用して精度を向上させることはできません。それは本当に残念です。

1 つの可能性は、 Voxeoの2 つの技術、つまりTropoとPhonoを組み合わせることです。前者は API ベースの音声プラットフォームで、VoiceXML プラットフォームよりもはるかに使いやすく、後者はブラウザから音声通話を発信 (および制御) するための jQuery プラグインです。Tropo は SRGS 文法をサポートしています。

score 1 · Accepted Answer

文法をサポートする音声認識システム ( SRGS ) を使用すると、認識率が向上します。文法は、音声認識システムが一致を取得するために使用するルールとして予想される単語やフレーズを指定することで検索スペースを制限するため、パフォーマンスと認識率を向上させることができます。

VoiceXMLは、対話モードとして電話を使用する音声アプリケーションの開発に適した言語です。電話をインタラクションのモードとして使用するとは、ユーザーが実際にIVR システムをダイヤルして通話に応答し、録音されたオーディオプロンプトと音声または電話のキーパッド入力によるユーザー入力によってユーザーとのインタラクションを開始することを意味します。VoiceXML は、ネイティブの Android アプリケーションや Web アプリケーションのようなビジュアルインターフェイスを持つモバイルアプリケーション向けではありません。音声を使用するビジュアルアプリケーションを開発するには、 Nuance のモバイルツールのようなものを使用できます。またはSphinxのようなオープンソース。

android - 音声制御 API - 特定のフレーズで高精度

4 に答える 4

Related

Reference