iOSで音声アイテムをテキストに変換するAPIを探していますが、主に1、2、3、4、a、b、c、dなどの数字や文字を探しています。
多くの人が提案したようにOpenEarsを試しましたが、「GO FORWARD BACKWARD LEFT RIGHTSTARTSTOPTURN」などの特定の順序しかサポートしていないようです。一般的な単語や話し言葉を認識するために使用できますか?
iSpeech APIも試しましたが、12345のような数字の文字列を話すと、「1 2 3 4 5」というテキストしか返せず、推測のリストではなく、認識の結果しか返されません。 (AndroidのGoogle音声認識APIのように)。
これらのAPI(または別の代替手段)のいずれかを使用して、話された数字または文字を認識するにはどうすればよいですか?