個別の音声 (0 から 9 までの個々の数字) を認識するために、双方向 LSTM モデルをトレーニングする必要があります。100 人のスピーカーからの音声を録音しました。次に何をすべきですか?(ファイルごとに 1 つの数値を含む個々の .wav ファイルに分割するとします) ネットワークの機能として mfcc を使用します。
さらに、CTC (Connectionist Temporal Classification) をサポートするライブラリを使用する場合、データセットの違いを知りたいです。