3

最初は、母国語をサポートするために、音声認識エンジンをゼロから作成することを考えていました (50 ~ 100 語をサポート)。

しかし、いくつかの調査の結果、非常に限定的なサポートでも 1 年半で音声認識エンジンを作成することは不可能であることが明らかになりました。

現在、自分の言語をサポートするためにスフィンクス エンジンを拡張することを考えていました。1.5年でできるのか、それとも最終年度のプロジェクトとしてはやり過ぎなのか。

この件に関して、あなたの経験談を心待ちにしています。

4

2 に答える 2

2

音声認識にかかる時間は、アプリケーションによって異なります。

必要になるだろう:

  1. 認識したい単語を定義します。
  2. これらの単語の音声辞書を作成します。
  3. 複数のネイティブ スピーカーと一緒に単語を録音します。
  4. 記録されたデータを検証します。
  5. 音響モデルをトレーニングするためのデータを準備します。
  6. 文法または言語モデルを作成します(この場合、音声的にバランスの取れた単語/文を記録する必要があります)。
  7. 音響モデルをトレーニングします。
  8. システムをテストします。
  9. 文法と音響モデルの調整とチューニング (話者適応);
  10. 上記の 9 つのトピックすべてを作成する方法を学びます。:)

項目 10 は最も時間のかかる作業です!!!

回答:はい、3ヶ月で商用利用可能です。

Sphinx は 1 つの可能性です。HTK は、完全なシステムをトレーニングおよびテストするための優れたオープン ソースの音声認識システムです。Julius は、HTK で構築された音響モデルと言語モデルを使用するオープン ソースの音声認識エンジン (エンジン) です。

ルイス・ウベル

ASR ラボ - www.asrlabs.com.br

于 2012-12-13T13:28:54.523 に答える
2

はい、もちろん可能です。卒業論文のために Chatino 用の同様の認識エンジンを作成しました。(チャティーノ語は、メキシコ南部オアハカの先住民族の言語です)。認識エンジンには、Sphinx4 を使用して構築された分離単語認識エンジンと連続音声認識エンジンの両方が含まれています。

詳細については、 http://www.jaimalayalam.com/papers/chatinoVoiceRecognition09.pdfを参照してください。

于 2013-01-17T00:01:12.037 に答える