4

Android バージョンのように動作する Java 用の音声認識ソフトウェアを探しています。.gram ファイルなどを使用する代わりに、発言内容の文字列を返すだけで、それに基づいて行動できます。私は sphinx-4 を使用してみましたが、.gram ファイルを使用すると、プログラムの実行が非常に難しくなります。

4

1 に答える 1

3

文法ファイルのポイントは、返されるものの精度を向上させることです。英単語のランダムな文字列を考え出す代わりに、特定の入力を期待するように指示します。

そうは言っても、sphinx-4 は通常の大規模な辞書 ASR も実行できます。このチュートリアルの N-Gram の部分を読み、sphinx ソース コードに付属する Transcriber サンプルを見てください。

さらに、得られる結果を強化する独自のトライグラム モデルをトレーニングすることもできます。(たとえば、「天気」という単語が検出される確率を高くします。) これは確かに Siri が行うことです。Apple/Google は、人々が携帯電話で話す音声の膨大なコーパスを持っており、その一部は人間が書き起こしたものであり、そこから音響モデルと言語モデルの両方をトレーニングします (そのため、彼らのエンジンは、ナンセンスではなく人々が通常話すことを検出します)。

于 2012-12-21T21:40:16.893 に答える