誰かに語学学習の成績またはパーセンテージを与えるために、ユーザーが送信したオーディオ録音を参照録音と比較して比較する方法を探しています。
これは非常に非科学的な方法であり、何よりも仕掛けであることに気づきました.
私が最初に考えたのは、ある種のオーディオのフィンガープリンティング、または波形の比較です。
私が見るべきアイデアはありますか?
誰かに語学学習の成績またはパーセンテージを与えるために、ユーザーが送信したオーディオ録音を参照録音と比較して比較する方法を探しています。
これは非常に非科学的な方法であり、何よりも仕掛けであることに気づきました.
私が最初に考えたのは、ある種のオーディオのフィンガープリンティング、または波形の比較です。
私が見るべきアイデアはありますか?
このトピックに関する研究は豊富にありますが、これは決して簡単な問題ではありません。現在、音声認識分野で最も成功している機械学習の形式は、隠れマルコフ モデル技術を適用しています。
また、HMM アルゴリズムの既存の実装を確認することもできます。そのような初期段階のライブラリの 1 つがghmmです。
おそらく、問題にさらに適切でより簡単に適用できるのはHTKです。
chomp の優れた回答に加えて、おそらく調べる必要がある重要なキーワードの 1 つは、Dynamic Time Warping (DTW) です。これはウィキペディアの記事です: http://en.wikipedia.org/wiki/Dynamic_time_warping