sphinx4またはHTKツールキットのいずれかを使用して、音声から年齢を推定することを目的とした音声認識アプリケーションを構築したいと思います。私は、音声認識に関係する統計モデルをより深く理解しています。Mel周波数ケプストラム係数とガウス混合モデルに興味があります。これら2つは私の問題領域により適しているからです。ニューラルネットワークを使用して、スフィンクス分類器から導出されたベクトルからトレーニングデータをフィードする必要がありますか?sphinxまたはHTKツールキットをどこから始めればよいのかよくわかりません。私はスフィンクスと音声認識に不慣れであり、私のアプリケーションは単なるプロトタイプです。
誰かがこの点に関して何らかの形のガイダンスを提供できますか?敬具。