深層ニューラル ネットワーク、特に LSTM を研究して、このリンクで提案されているアイデアに従うことにしました: LSTM バイナリ分類用の音声データセット を構築して、分類器を構築します。
MFCC を抽出する機能があり、各配列は単語の各音素が 13x56 です。トレーニングデータは次のようになります。
X = [[phon1fram[1][1], phon1fram[1][2],..., phon1fram[1][56]],
[phon1fram[2][1], phon1fram[2][2],..., phon1fram[2][56]], ....
[phon1fram[15][1], phon1fram[15][2], ..., phon1fram[15][56] ] ]
...
...
[[phon5fram[1][1], phon5fram[1][2],..., phon5fram[1][56]], ... ,
[phon5fram[15][1], phon5fram[15][2], ..., phon5fram[15][56]] ]
確かに最初のフレームであるレタリングでは、ラベルは「仲介者」と呼ばれ、最後のフレームのみが実際に音素を表していますか?
Y = [[0, 0, ..., 0], #intermediary
[0, 0, ..., 0], ... , #intermediary
[1, 0, ..., 0]] # is one phoneme
[[0, 0, ..., 0], ... #intermediary
[0, 1, ..., 0] # other phoneme
これは本当に正しいでしょうか?最初のテストでは、この「仲介者」を最も普及しているというラベルを付ける傾向があると予想されるすべてのアウトレットを実行しました。他のアプローチを使用できますか?