1

Androidの「音声認識」の分野は初めてです。

アプリに「音声認識」が必要です。だから私は宿題をやっています。1. Android SDK はこれをサポートしており、「Google 音声認識」を使用していることがわかったので、私が理解していることから、意図によって認識エンジンを呼び出すか、クラス SpeechRecogniser を使用すると、実際の認識は Google クラウド サーバーで行われます。 . 両方の方法を使用してサンプル アプリを試してみましたが、どちらの場合も一致率は非常に低かったです\ (まず、私の発見は正しいですか? 私が試したほとんどの単語/文で正しく一致しませんでした)。

  1. これら 2 つのメソッドの出力に違いはありますか。つまり、インテントによる起動/または SpeechRecogniser クラスの使用)

  2. 音声がサウンド バイトとして送信され、クラウド サーバーで認識されるこの Google テクノロジーに依存するすべてのアプリです。Shazam は別のテクノロジーを使用しているのを見ましたが、独自のデータベースを持っています。他に使用されているそのような技術はありますか

  3. 多くの「siri for android」を見ました。これらのアプリケーションが実際にどのように機能するかについて何かメモはありますか?

お時間をいただき、ありがとうございました。

4

2 に答える 2

2

RecognizerIntent1)またはのどちらを使用しても同じ結果が得られますSpeechRecognizer。主な違いは、ユーザー インタラクションにあります。では、RecognizerIntentユーザーは標準の音声認識手順を実行する必要があります。を使用するSpeechRecognizerと、アプリが音声を収集する方法と処理するタイミングを制御できます。の利点はRecognizerIntent、プログラミングが簡単で、ユーザーになじみやすいことです。SpeechRecognizerバックグラウンドで音声を聞くなどの高度な機能を実装できます。また、エラー報告も改善されます。

また、「りんご」のように認識器が理解しやすい単語もあれば、さまざまな理由から「クミン」のように難しい単語もあります。信頼できるものを実装するには、グーグルが返すものと一致させることに賢くなければなりません。

2) 独自のデータベースの意味がわかりません。アプリには、ユーザーの発言と照合しようとしている種類の「データベース」があります

3) おそらく、自然言語処理、ユーザー モデリング、人間の対話をエミュレートする技術の組み合わせ。または、スマートに見えるようにするために手作業でコード化された大量のルールにすぎません。何かを信じられるものにしようとするのは大変な作業だと思います。

ここで私のサンプル コードの一部を確認してください: https://github.com/gmilette/Say-the-Magic-Word-

于 2012-04-19T23:11:46.087 に答える
1

はい....あなたは正しい道を歩んでいます。これは、音声認識に関する優れた記事です。 そして、あなたもこのリンクでいくつかの情報を見つけたと思います。これはあなたにとって興味深いものです!

于 2012-04-19T09:44:54.740 に答える