speech-recognition - MFCCで特徴抽出したLSTMによる音声認識

翻译自：https://stackoverflow.com/questions/37444483 2016-05-25T17:57:14.967

1959 次

深層ニューラルネットワーク、特に LSTM を研究して、このリンクで提案されているアイデアに従うことにしました: LSTM バイナリ分類用の音声データセットを構築して、分類器を構築します。

MFCC を抽出する機能があり、各配列は単語の各音素が 13x56 です。トレーニングデータは次のようになります。

X = [[phon1fram[1][1], phon1fram[1][2],..., phon1fram[1][56]], 
     [phon1fram[2][1], phon1fram[2][2],..., phon1fram[2][56]], ....   
     [phon1fram[15][1], phon1fram[15][2], ..., phon1fram[15][56] ] ]
     ...
     ...
     [[phon5fram[1][1], phon5fram[1][2],..., phon5fram[1][56]], ... ,
     [phon5fram[15][1], phon5fram[15][2], ..., phon5fram[15][56]] ]

確かに最初のフレームであるレタリングでは、ラベルは「仲介者」と呼ばれ、最後のフレームのみが実際に音素を表していますか?

Y = [[0, 0, ..., 0],        #intermediary
     [0, 0, ..., 0], ... ,  #intermediary
     [1, 0, ..., 0]]        # is one phoneme
    [[0, 0, ..., 0], ...    #intermediary
     [0, 1, ..., 0]         # other phoneme

これは本当に正しいでしょうか？最初のテストでは、この「仲介者」を最も普及しているというラベルを付ける傾向があると予想されるすべてのアウトレットを実行しました。他のアプローチを使用できますか？

speech-recognition - MFCCで特徴抽出したLSTMによる音声認識

1 に答える 1

Related

Reference