18

リアルタイムの音声入力が、与えられた144個の(そして快適に区別できる)音素ペアの1つと一致するかどうかを判断するアルゴリズムを探しています。

できれば、その仕事をする最低レベル。

私はiPhone/iPad用の過激で実験的な音楽トレーニングソフトウェアを開発しています。

私の音楽システムは、12個の子音音素と12個の母音音素で構成されています。これにより、144の音素ペアが可能になります。生徒は視覚刺激に応じて正しい音素ペア「laaduubee」などを歌わなければなりません。

私はこれについて多くの調査を行いましたが、私の最善の策はiOS Sphinxラッパーの1つを使用することかもしれないようです(iPhoneアプリ› 音声認識を追加しますか? は私が見つけた最良の情報源です)。しかし、そのようなパッケージをどのように適応させるかはわかりません。これらのテクノロジーのいずれかを使用した経験のある人は、必要な手順の基本的な概要を説明できますか?

ユーザーによるトレーニングは必要ですか?何千もの単語とはるかに大きくて微妙な音素ベースの完全な言語モデルと比較して、それはそのような基本的なタスクであるため、私は考えなかったでしょう。ただし、ユーザーに12個の音素ペアをトレーニングさせることは許容されます(理想的ではありません):{consonant1 + vowel1、consonant2 + vowel2、...、consonant12+vowel12}。144全体は負担が大きすぎます。

より簡単なアプローチはありますか?フル機能の連続音声認識装置を使用しているのは、ハンマーを使用してナットを割っているような気がします。問題を解決する最小限のテクノロジーを使用する方がはるかにエレガントです。

だから本当に私は音素を認識するオープンソースソフトウェアを探しています。

PS私はほとんどリアルタイムで実行されるソリューションが必要です。そのため、彼らがノートを歌っているときでも、最初に点滅して、歌われた音素ペアをピックアップしたことを示し、次に、彼らが正しいノートピッチを歌っているかどうかを示すために光ります。

4

4 に答える 4

5

電話レベルのオープン ソース認識機能をお探しの場合は、HTKをお勧めします。このツールには、HTK Book という形で非常に優れたドキュメントが用意されています。また、電話レベルのリアルタイム音声認識装置の構築に特化した章全体も含まれています。上記の問題の説明から、その例を独自のソリューションに作り直すことができるように思えます。考えられる落とし穴:

  1. 電話レベルの認識機能を実行したいので、電話モデルのトレーニングに必要なデータは非常に多くなります。また、トレーニング データベースは、電話機の分散に関してバランスが取れている必要があります。

  2. 話者に依存しないシステムを構築するには、複数の話者からのデータが必要になります。そしてそれもたくさん。

  3. これはオープンソースであるため、コードの配布に関する追加の詳細については、ライセンス情報も確認する必要があります。良い代替手段は、電話のレコーダーを使用し、記録された波形をデータチャネルを介してサーバーに送信して認識させることです。これは、Googleが行うこととほとんど同じです.

于 2011-06-30T08:59:17.640 に答える
4

私はこのタイプの信号処理について少し経験がありますが、これはおそらく、明確に答えることができるタイプの有限の質問ではないと思います.

注目すべきことの 1 つは、関心のある音素を制限することはできますが、可能性空間は同じままです (つまり、無限っぽい)。ユーザートレーニングはアルゴリズムに少し役立つかもしれませんが、有用なトレーニングにはかなりの時間がかかり、あなたはそれを嫌うようです.

Sphinx を使用することは、おそらくこの問題の優れた出発点です。私自身、ライブラリについてはあまり詳しく知りませんが、自分でソース コードを操作して、必要なものを正確に取得することになると思います。(オープンソース万歳!)

...ハンマーを使ってナッツを割る。

私はあなたの問題にナッツのラベルを付けるつもりはありません。それは獣のようなものだと思います. 自然言語の音声認識とは別の獣かもしれませんが、それでも獣です。

あなたの問題解決に最善を尽くします。

于 2011-06-22T21:53:22.063 に答える
1

これが役立つかどうかわからない: OpenEars 'をチェックしてくださいLanguageModelGenerator。OpenEars は Sphinx およびその他のライブラリを使用します。

于 2011-06-30T14:12:09.230 に答える
0

http://www.hfink.eu/matchbox

このページは、YouTube ビデオ デモと github ソースの両方にリンクしています。

私が求めている形に成形するのはまだ大変な作業だと思いますが、間違いなく多くの作業を行います.

于 2011-06-23T03:41:41.330 に答える