私は現在、MFCC を使用して単純な音声分類を実行するニューラル ネットワークを作成およびトレーニングしようとしています。
現時点では、サンプルごとに 26 の係数を使用し、合計 5 つの異なるクラスを使用しています。これらは、さまざまな数の音節を持つ 5 つの異なる単語です。
While each sample is 2 seconds long, I am unsure how to handle cases where the user can pronounce words either very slowly or very quickly. E.g., the word 'television' spoken within 1 second yields different coefficients than the word spoken within two seconds.
Any advice on how I can solve this problem would be much appreciated!