リアルタイムの音声入力が、与えられた144個の(そして快適に区別できる)音素ペアの1つと一致するかどうかを判断するアルゴリズムを探しています。
できれば、その仕事をする最低レベル。
私はiPhone/iPad用の過激で実験的な音楽トレーニングソフトウェアを開発しています。
私の音楽システムは、12個の子音音素と12個の母音音素で構成されています。これにより、144の音素ペアが可能になります。生徒は視覚刺激に応じて正しい音素ペア「laaduubee」などを歌わなければなりません。
私はこれについて多くの調査を行いましたが、私の最善の策はiOS Sphinxラッパーの1つを使用することかもしれないようです(iPhoneアプリ› 音声認識を追加しますか? は私が見つけた最良の情報源です)。しかし、そのようなパッケージをどのように適応させるかはわかりません。これらのテクノロジーのいずれかを使用した経験のある人は、必要な手順の基本的な概要を説明できますか?
ユーザーによるトレーニングは必要ですか?何千もの単語とはるかに大きくて微妙な音素ベースの完全な言語モデルと比較して、それはそのような基本的なタスクであるため、私は考えなかったでしょう。ただし、ユーザーに12個の音素ペアをトレーニングさせることは許容されます(理想的ではありません):{consonant1 + vowel1、consonant2 + vowel2、...、consonant12+vowel12}。144全体は負担が大きすぎます。
より簡単なアプローチはありますか?フル機能の連続音声認識装置を使用しているのは、ハンマーを使用してナットを割っているような気がします。問題を解決する最小限のテクノロジーを使用する方がはるかにエレガントです。
だから本当に私は音素を認識するオープンソースソフトウェアを探しています。
PS私はほとんどリアルタイムで実行されるソリューションが必要です。そのため、彼らがノートを歌っているときでも、最初に点滅して、歌われた音素ペアをピックアップしたことを示し、次に、彼らが正しいノートピッチを歌っているかどうかを示すために光ります。