5

個別の音声 (0 から 9 までの個々の数字) を認識するために、双方向 LSTM モデルをトレーニングする必要があります。100 人のスピーカーからの音声を録音しました。次に何をすべきですか?(ファイルごとに 1 つの数値を含む個々の .wav ファイルに分割するとします) ネットワークの機能として mfcc を使用します。

さらに、CTC (Connectionist Temporal Classification) をサポートするライブラリを使用する場合、データセットの違いを知りたいです。

4

1 に答える 1

4

ここで提供される回答/ガイダンスを使用できます

LSTM の作成に使用しているライブラリ (pybrain、theano、keras) に応じて、それらのドキュメントを参照できます。

これには、Theano(Binary LSTM link ) または Keras( Tutorial)を使用することをお勧めします。

お役に立てれば。

于 2016-01-15T13:53:41.913 に答える