1

sphinx4またはHTKツールキットのいずれかを使用して、音声から年齢を推定することを目的とした音声認識アプリケーションを構築したいと思います。私は、音声認識に関係する統計モデルをより深く理解しています。Mel周波数ケプストラム係数とガウス混合モデルに興味があります。これら2つは私の問題領域により適しているからです。ニューラルネットワークを使用して、スフィンクス分類器から導出されたベクトルからトレーニングデータをフィードする必要がありますか?sphinxまたはHTKツールキットをどこから始めればよいのかよくわかりません。私はスフィンクスと音声認識に不慣れであり、私のアプリケーションは単なるプロトタイプです。

誰かがこの点に関して何らかの形のガイダンスを提供できますか?敬具。

4

2 に答える 2

0

通常、このようなことを始める最初の場所は、学界から以前の関連する仕事を探すことです。峯松らで2002年、彼らはメル周波数ケプストラム係数に対してガウス混合モデル(GMM)を使用して、古い話者と若い話者を区別しました。

おそらく、老若男女の両方のスピーカーでトレーニングデータにアクセスできる場合は、同じことができるはずです。ニューラルネットワークなどの別の分類器バックエンドを試したい場合でも、GMMはタスクで機能するはずであり、他の分類器と比較するための何かを提供することがわかっているので、GMMから始めるのがよいでしょう。使ってみたい。

楽しみのために、または研究プロジェクトとしてこれを行う場合は、モジュール式であることが好きなので、HTKを使用することをお勧めします。ただし、これが商業的な目的でダウンしている場合は、BSDライクなライセンスの下で再配布できるため、おそらくSphinxを使用する必要があります。

于 2010-01-19T04:35:55.470 に答える
0

Sphinx 4は、音声認識や入力シーケンスに基づくインターフェイスへのマルチモーダル入力など、主にシーケンシャル分析に使用される隠れマルコフモデルに基づいているため、使用しないことにしました。音声処理と合成用のPraatというソフトウェアを使用しました。母音などを分析するために使用される「Akustyk」と呼ばれる「プラグイン」もあります。その方向性があなたにとって価値があるかもしれません、私にはわかりません。

次に、mathlabを使用し、パターン認識ツールボックスを使用して、ニューラルネットワーク、GMM、または追求したい任意のアプローチを実装できます。

お役に立てば幸いです。

于 2010-05-05T18:43:59.287 に答える