4

エンジンに音声ファイル(wav / mp3 / etc ..)からのフレーズを正常に認識させるにはどうすればよいですか?

たとえば、音声ファイルと同じファイルのコンテキストの書かれたテキストがある場合、音声ファイルに書かれた単語を認識できるようにします。

私はSpeechRecognitionEngineをいじってみましたが、今のところ成功していません。

音声認識技術を扱うのはこれが初めてなので、アイデアに感謝します。

辞書を使用した音声認識の例を見てきましたが、ここでどのように役立つかわかりません。すべての音声ファイルをテキストに変換して、そのテキスト内の特定のフレーズを探すことを考えていましたが、それが正しい方法ではないと思います。たとえば、5時間の音声をテキストに変換するのは意味がないようです。あるいは、特定のフレーズを「辞書」として使用して、音声ファイルでこの項目を探すのは意味がないようです。

4

3 に答える 3

6

長いファイルで特定の単語を探す必要があるようです。この手法は「キーワードスポッティング」と呼ばれ、音声認識とはまったく異なり、はるかに効率的です。明らかに、ファイル内の単語を検索するためにファイル全体を転記する必要はありません。ファイルをすばやくスキャンできます。Microsoft音声認識エンジンでは、キーワードスポッティングのサポートが非常に限られています。

CMUSphinxのようなオープンソースエンジンを使用して、キーワードスポッティングを効率的に実装できます。詳細については、pocketsphinxを使用してウェイクアップリスニングを実装する方法に関する情報を参照してください。

基盤となるアルゴリズムの詳細については、データマイニングへのアプリケーションを使用した音声での音響キーワードスポッティングを参照してください。

于 2012-04-30T06:22:23.623 に答える
0

MSDNの記事「音声認識入門」によると。

あなたがする必要があるステップは(記事から)です。認識文法の作成ステップに注意してください。この記事では、GrammerBuilderまたはChoicesクラスの使用を提案しています。

音声認識アプリケーションは通常、次の基本的な操作を実行します。-音声認識機能を
起動します。
-認識文法を作成します。
-文法を音声認識機能にロードします。
-音声認識イベント通知に登録します。
-音声認識イベントのハンドラーを作成します。

于 2012-04-30T00:18:13.533 に答える
0

Microsoft音声エンジンを使用してオーディオファイルを変換しようとしている場合は、注意が必要です。まず、サポートされている形式はWAV(PCM、ALaw、またはuLawとしてエンコードできます)のみですが、ファイルがレコグナイザーでサポートされている形式であることを確認する必要があります。また、サンプルレートを確認する必要があります。レコグナイザーは、固定されたサンプルレートのセットのみをサポートします。私のマシンでは、

  • サンプルあたり8ビット
  • シングルチャンネルモノ
  • 1秒あたり22,050サンプル
  • PCMエンコーディング

うまく機能します。詳細については、 https://stackoverflow.com/a/6203533/90236を参照してください。audacityなどのツールを使用して、WAVファイルを再サンプリングまたは再エンコードする必要がある場合があります。https://stackoverflow.com/a/9467044/90236を参照してください。

始めるための簡単な例は、SAPIとWindows7の問題です。

最後に、(私はいつもこの点を繰り返しますが、申し訳ありませんが)Windows.NETでのプログラミング認識に関するすばらしい記事があります。http://msdn.microsoft.com/en-us/magazine/cc163663.aspxを参照してください。少し古くなっていますが、すばらしい紹介です。

于 2012-05-01T17:32:03.187 に答える