2

私は現在、MFCC を使用して単純な音声分類を実行するニューラル ネットワークを作成およびトレーニングしようとしています。

現時点では、サンプルごとに 26 の係数を使用し、合計 5 つの異なるクラスを使用しています。これらは、さまざまな数の音節を持つ 5 つの異なる単語です。

While each sample is 2 seconds long, I am unsure how to handle cases where the user can pronounce words either very slowly or very quickly. E.g., the word 'television' spoken within 1 second yields different coefficients than the word spoken within two seconds.

Any advice on how I can solve this problem would be much appreciated!

4

1 に答える 1

3

私は現在、MFCC を使用して単純な音声分類を実行するニューラル ネットワークを作成およびトレーニングしようとしています。

単純なニューラル ネットワークには入力長の不変性がなく、時系列の分析ができません。

一連の MFCC フレームのような時系列の分類では、時不変の分類子を使用できます。たとえば、ニューラル ネットワークと隠れマルコフ モデルを組み合わせたもの (ANN-HMM)、ガウス混合モデルと隠れマルコフ モデルを組み合わせたもの (GMM-HMM)、または再帰型ニューラル ネットワーク (RNN) を使用できます。RNN の Matlab 実装はこちらです。Theano 実装も利用可能です。Google でこれらの構造の詳細な説明を見つけることができます。

音声認識は簡単に実装できるものではありません。CMUSphinxなどの既存のソフトウェアを使用することをお勧めします。

于 2014-02-08T17:06:19.973 に答える