performance - Siriなどの音声認識

Question

Siriなどのソフトウェアは、音声コマンドを受け取り、それらの質問に適切に応答します（98％）。音声信号の入力ストリームを取得し、それらの質問に答えるためのソフトウェアを作成するときに、

入力を人間が読める言語に変換する必要がありますか？英語など？

自然界と同じように、私たちは非常に多くの異なる言語を持っていますが、私たちが話すとき、私たちは基本的に異なる音を立てます。それでおしまい。ただし、これらのノイズの変動を示すために、いわゆるアルファベットを作成しました。

それで、もう一度私の質問は、音声認識アルゴリズムを書くとき、それらのノイズ変動信号をデータベースと照合しますか、それとも最初にそれらのノイズ変動を英語に変換し、次にデータベースから何に答えるかを確認しますか？

score 2 · Accepted Answer

あなたが言及している「ノイズ変動信号」は音素と呼ばれます。音声認識システムがこれらの音素を単語に変換する方法は、システムのタイプによって異なります。Siriは、一連のルールに基づいて、どのタイプのフレーズを期待しているかを音声認識システムに伝える文法ベースのシステムではありません。Siriはオープンコンテキストで音声を翻訳するため、おそらく何らかの統計モデリングを使用します。今日の音声認識で人気のある統計モデルは、隠れマルコフモデルです。関係する種類のデータベースがありますが、それは音素のグループを単語に単純に検索することではありません。ここには、翻訳に関するプロセスと問題のかなり良い高レベルの説明があります。

score 2 · Accepted Answer

自然言語理解に基づくAppleのSiri..ニュアンスは舞台裏にあると思います..この記事を参照
してくださいニュアンスは音声認識システム開発のリーダーです。NuanceDragonEngineの精度は素晴らしいです...私が働いているクライアントはIVRシステム用のNuanceNODサービスを消費しています...私はAndroid用のNuanceDragonSDK
を試しました... 私の経験からNuanceを使用する場合は必要ありませんノイズの変動などを心配する必要があります...しかし、アプリケーションのエンタープライズリリースに行く場合、Nuanceはコストがかかる可能性があります。

Power of voiceを使用してアプリケーションを駆動することを計画している場合は、GoogleAPIもより良い選択です...

SphinxやpocketsphinxのようなAPIもあり、音声アプリケーションの開発に役立ちます。上記のAPIはすべて、ノイズ除去や音声のテキストへの変換などを処理します。

心配する必要があるのは、指定された文字列または認識された音声コンテンツの意味を理解するようにシステムを構築することだけです。Appleには、非常に優れた意味意味インタープリターが必要です。では、NuanceSDKを試してみてください。Android、iOS、Windows Phone、HTTPクライアントの各バージョンで利用できます。

お役に立てば幸いです

performance - Siriなどの音声認識

2 に答える 2

Related