アプリに Pocketphinx オフライン音声認識を使用することを考えていますが、ドキュメントが明確ではありません。誰かが次の質問に答えてくれれば、本当に助かります。
setKeywordThreshold(1e-5f) メソッドの役割 (用途) は何ですか。このメソッドで許可される最小値と最大値は何ですか。
さまざまな言語をサポートし、このリンクhttp://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/でいくつかの言語の構築済み音響モデルを見つけたいと考えています。しかし、ドキュメンテーションの遅れにより、どのモデルがどの言語に最適なのか理解できません。次の言語に最適な内蔵音響モデルを教えてください -
(a)。オーストラリア英語 (b)。アメリカ英語 (c). イギリス英語 (d)。カナダ英語 (e)。ヨーロッパ英語 (f)。インド英語 (g)。アイルランド英語 (h)。ニュージーランド英語 (i)。南アフリカ英語 (j)。ロシア語 (k)。スペイン語 (l)。フランス語 (m)。オランダ語 (n)。ドイツ人
各言語で 1 から 200 までの数字を認識したいだけです。これを行う最善の方法は何ですか?
1 から 99 までの数字を認識する digits.gram ファイルを作成しましたが、背景の音声も認識します。たとえば、ボール盤のバックグラウンド ボイスが発生すると、バックグラウンド ボイスとして認識します。特定の数字が話された場合にのみ数字を認識するにはどうすればよいでしょうか?
digits.gram ファイル
#JSGF V1.0;
grammar digits;
<single> = one | two | three | four | five | six | seven | eight | nine ;
<digit> = <single> |
zero |
ten |
eleven |
twelve |
thirteen |
fourteen |
fifteen |
sixteen |
seventeen |
eighteen |
nineteen |
twenty |
thirty |
forty |
fifty |
sixty |
seventy |
eighty |
ninety |
twenty <single> |
thirty <single> |
forty <single> |
fifty <single> |
sixty <single> |
seventy <single> |
eighty <single> |
ninety <single> ;