speech-recognition - 音声認識用のデータセットを準備する方法

Question

個別の音声 (0 から 9 までの個々の数字) を認識するために、双方向 LSTM モデルをトレーニングする必要があります。100 人のスピーカーからの音声を録音しました。次に何をすべきですか？(ファイルごとに 1 つの数値を含む個々の .wav ファイルに分割するとします) ネットワークの機能として mfcc を使用します。

さらに、CTC (Connectionist Temporal Classification) をサポートするライブラリを使用する場合、データセットの違いを知りたいです。

score 4 · Accepted Answer

ここで提供される回答/ガイダンスを使用できます

LSTM の作成に使用しているライブラリ (pybrain、theano、keras) に応じて、それらのドキュメントを参照できます。

これには、Theano(Binary LSTM link ) または Keras( Tutorial)を使用することをお勧めします。

お役に立てれば。

speech-recognition - 音声認識用のデータセットを準備する方法

1 に答える 1

Related

Reference