1

私は読書エバリュエーターを開発しようとしています(CMUSphnix Speech Recognizerに基づく読書チューターのサブセット - http://www.cs.cmu.edu/~listen/ )。私のエバリュエーターは、主に英語の韻律 (または流暢さ) をテストするために使用されますが、インドのアクセントはまだ利用できません。

具体的には、たとえば 500 ~ 1000 語の定型文で構成されたリーディング テストを読者に提示します。音声データは記録され、一時停止、休憩、ピッチ、強さなどについて分析され、最終的に評価に基づいてスコアがリーダーに割り当てられます。

今。これがキャッチです。新しい言語の場合、HTK では (1)文法、(2)発音モデル、(3)音響モデル (トレーニング) を事前に指定する必要があります。私の場合、ストーリーは固定されており、英語の膨大な語彙に比べて非常に小さいため、すべてを行う必要はないと思います.

私はこの分野では非常に初心者なので、(a) 簡単なデモ (スケルトン) のために自分で最初にこれをテストする最も簡単で労力の少ない方法を教えてもらえますか? (b) 上記の 3 つのモデルのうち、何を変更する必要があり、2 ~ 3 階建てのような信頼性の高いテスト可能なプロトタイプを開発するにはどうすればよいですか? (c) このプロジェクトを開始するためのその他の助けや、その他の提案/批判は大歓迎です。

PS 繰り返しますが、英語のみを使用しますが、インドのシナリオでテストすることに注意してください。単語の総数は約 100 ~ 200 程度と少ないため、通常のツールよりもはるかに少ない労力 (トレーニング、文法モデルなど) で認識精度が向上する可能性があると感じています。

どうもありがとう。

4

0 に答える 0