7

iOSで音声アイテムをテキストに変換するAPIを探していますが、主に1、2、3、4、a、b、c、dなどの数字や文字を探しています。

多くの人が提案したようにOpenEarsを試しましたが、「GO FORWARD BACKWARD LEFT RIGHTSTARTSTOPTURN」などの特定の順序しかサポートしていないようです。一般的な単語や話し言葉を認識するために使用できますか?

iSpeech APIも試しましたが、12345のような数字の文字列を話すと、「1 2 3 4 5」というテキストしか返せず、推測のリストではなく、認識の結果しか返されません。 (AndroidのGoogle音声認識APIのように)。

これらのAPI(または別の代替手段)のいずれかを使用して、話された数字または文字を認識するにはどうすればよいですか?

4

2 に答える 2

7

カスタム言語モデルを作成する方法と、OpenEarsを使用して言語モデルを動的に作成する方法(言語モデルはカスタムの単語セットです)については、OpenEarsのドキュメントをご覧ください。

http://www.politepix.com/openears/yourapp

話された数字の認識を目的としたOpenEarsで音響モデルを使用する方法については、OpenEarsフォーラムの次のディスカッションをお読みください。

http://www.politepix.com/forums/topic/way-to-see-phonemes-openears-heard

また、OpenEarsサンプルアプリのコードを確認することもできます。このコードは、コメントが多く、アプリの「語彙」をインラインで変更する例を示しています。OpenEarsの実装についてさらに質問がある場合は、OpenEarsフォーラムでアカウントを作成することをお勧めします(私はOpenEars開発者です)。

于 2011-09-30T19:04:24.983 に答える
-1

スフィンクスの単体テストに基づいて、次のJSGFを使用しました。

<int0> = (ZERO | OH);
<int10> = TEN;
<int100> = HUNDRED;
<int1to9> = ONE | TWO | THREE | FOUR | FIVE | SIX | SEVEN | EIGHT | NINE;
<int0to9> = ( <int0> | <int1to9> );
<int01to09> = <int0> <int1to9>;
<int11to19> = ELEVEN | TWELVE | THIRTEEN | FOURTEEN | FIFTEEN | SIXTEEN | SEVENTEEN | EIGHTEEN | NINETEEN;
<tens> = TWENTY | THIRTY | FORTY | FIFTY | SIXTY | SEVENTY | EIGHTY | NINETY;
<int20to99> = ( <tens> [<int1to9>] );
<int10to99> = ( <int10> | <int11to19> | <int20to99> );
<int1to99> = ( <int1to9> | <int10to99> );
<int0to99> = ( <int0> | <int1to99> );
<int01to99> = ( <int01to09> | <int10to99> );
<int1to9hundreds> = ((A  | <int1to9>) <int100>);
<int101to999> = (<int1to9> (<int01to09> | <int10> | <int11to19> | <int20to99> ));
<int100to999> = (<int1to9hundreds> [[AND] <int1to99> ]);
<int1to999> = ( <int1to99> | <int100to999> | <int101to999> );
于 2016-01-04T20:21:03.887 に答える