matlab - 可変長音声セグメントの MFCC へのニューラルネットワークの適用

Question

私は現在、MFCC を使用して単純な音声分類を実行するニューラルネットワークを作成およびトレーニングしようとしています。

現時点では、サンプルごとに 26 の係数を使用し、合計 5 つの異なるクラスを使用しています。これらは、さまざまな数の音節を持つ 5 つの異なる単語です。

While each sample is 2 seconds long, I am unsure how to handle cases where the user can pronounce words either very slowly or very quickly. E.g., the word 'television' spoken within 1 second yields different coefficients than the word spoken within two seconds.

Any advice on how I can solve this problem would be much appreciated!

score 3 · Accepted Answer

私は現在、MFCC を使用して単純な音声分類を実行するニューラルネットワークを作成およびトレーニングしようとしています。

単純なニューラルネットワークには入力長の不変性がなく、時系列の分析ができません。

一連の MFCC フレームのような時系列の分類では、時不変の分類子を使用できます。たとえば、ニューラルネットワークと隠れマルコフモデルを組み合わせたもの (ANN-HMM)、ガウス混合モデルと隠れマルコフモデルを組み合わせたもの (GMM-HMM)、または再帰型ニューラルネットワーク (RNN) を使用できます。RNN の Matlab 実装はこちらです。Theano 実装も利用可能です。Google でこれらの構造の詳細な説明を見つけることができます。

音声認識は簡単に実装できるものではありません。CMUSphinxなどの既存のソフトウェアを使用することをお勧めします。

matlab - 可変長音声セグメントの MFCC へのニューラル ネットワークの適用

1 に答える 1

Related

Reference

matlab - 可変長音声セグメントの MFCC へのニューラルネットワークの適用