1

このライブラリhttps://code.google.com/p/libmfcc/を使用して、振幅二乗パワー スペクトルから MFCC 係数を生成しています。

ただし、私が理解しているように、最初の係数は全体のエネルギーを表す必要があります。これは私の結果には当てはまりません。これにより、機能セット全体が疑わしくなります。

F0: -3.77、F1: -2.78、F2: 2.13、F3: 4.47、F4: 2.76、F5: -0.00、F6: -0.58、F7: 0.76、F8: 1.49、F9: 0.62、F10: -0.44、F11 : -0.26、F12: 0.58

  • これらは、リフターが適用される前の生の MFCC 機能です。

この係数が必要な唯一の理由は、プロジェクトで問題となっている機能を排除するのに役立つことです。- 16000hz でサンプリングされた、長さ 256 の実数 (元は 512 FFT) のマグニチュード パワー スペクトルを渡します。テストを実行して生成される周波数を確認したので、FFT が正しいことは確かです。

これらの機能を使用して話者認識を実行しようとしていますが、現在、誤検知が続いています。生成された機能をニューラルネットワーク、ベクトル量子化、および単にブルートフォースのユークリッドとスピアマンの比較で使用してみました。ボイス間の係数の一意性を引き出すために私がしていることは何もないように見えます。誤検知で終わる。

私はこれで何ヶ月も立ち往生しており、私の機能のせいだと感じています. どんな助けでも大歓迎です!

4

1 に答える 1