1

非常に具体的な要件があります。私は、ユーザーが HN56C12345 (任意の英数字シーケンス) の形式の従業員番号をアプリに話せるようにするアプリケーションに取り組んでいます。http://cmusphinx.sourceforge.net/wiki/tutoriallmのリンクを確認しましたが、それが私のユースケースで機能するかどうかはわかりません。

だから私の質問は3つです:

  1. 私の場合、Sphinx4 は実際に emp 番号のような高精度の英数字シーケンスを認識できますか?
  2. はいの場合、だれかがSphinx4でカスタム言語サポートをゼロから構築した具体的な例/リファレンスページを教えてください. これに関する詳細なステップバイステップのドキュメントはまだ見つかりません。英数字シーケンスに基づく辞書または言語モデルに取り組んだ人はいますか?
  3. このシナリオの音響モデルを構築するにはどうすればよいですか?
4

1 に答える 1

1

これには新しい音響モデルは必要ありませんが、カスタム文法が必要です。詳細については、 http ://cmusphinx.sourceforge.net/wiki/tutoriallm#building_a_grammarおよびhttp://cmusphinx.sourceforge.net/doc/sphinx4/edu/cmu/sphinx/jsgf/JSGFGrammar.htmlを参照してください。Sphinx4 は、文法でスペースで区切られた文字を配置すると、問題なく文字を認識します。

#JSGF V1.0
grammar jsgf.emplID;
<digit> = zero | one | two | three | four | five | six | seven | eight | nine ;
<digit2> = <digit> <digit>   ;
<digit4> = <digit2> <digit2> ;
<digit5> = <digit4> <digit>  ;
// This rule accepts IDs of a kind: hn<2 digits>c<5 digits>.
public <id> = h n <digit2> c <digit5> ;

精度に関しては、それを上げるには2つの方法があります。従業員の数が多すぎない場合は、考えられるすべての従業員 ID を使用して文法を作成できます。これが当てはまらない場合は、一般的な文法を使用することが唯一の選択肢です。ただし、コンテキスト情報を使用して従業員 ID を一般的なアルゴリズムよりも適切に予測するカスタム スコアラーを作成することは可能です。この方法では、ASR と CMU Sphinx コードの両方に関する知識が必要です。

于 2015-10-08T22:42:31.277 に答える