問題タブ [mfcc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
5072 参照

android - Android を使用した音声処理におけるプリエンファシス

私は、音声認識のためにメル周波数ケプストラム係数 (MFCC) を実装する必要があるアプリケーションに取り組んでいます。

MFCC の最初のステップは、プリエンファシスを適用することです

プリエンファシスは、より高い周波数で信号のエネルギーを増加させます。低周波帯域は、音声認識にとって役に立たない/有害な音で占められているためです。

このプロセスの次の方程式を見つけました。

私の質問は、元の信号にこの式を適用するだけでいいですか?? そのため、より高い周波数で信号のエネルギーが増加します。または、この方程式を適用する前に、入力信号に特定のフィルターを適用する必要がありますか? もしそうなら、どのようにプログラムしますか?

0 投票する
1 に答える
515 参照

c++ - Intel のパフォーマンス プリミティブと同じ方法で MFCC フィルター バンクを構築する

MFCC を生成するための三角フィルターを作成しようとしています。私は IPP 6 に基づく既存のコードを持っていますが、IPP 8 が進行中であるため、機能し、現在サポートされていない古いライブラリに依存しない実装を取得したいと考えています。

関連するメルスケールの中心周波数を生成しました(さらに両端に2つ)。

次に、次のようにフィルターを作成しようとしています。

次に、上記のベクトルを FFT の結果 (ビン 0 は 0Hz または DC オフセット ビン) で部分的に乗算し、それらを合計します (基本的にドット積)。

これはかなりうまく機能しているように見えますが、IPP と比較して得られる結果は、少し心配になるほど大きく異なります。

私が間違っていることはありますか?

全体のプロセスは、FFT を取得し、返された複素ベクトル (std::abs) の大きさを計算し、上記のように計算されたフィルター バンクを適用することで構成されます。コードは次のとおりです。

これは、シリーズ 1 が私の MFCC で、シリーズ 2 が IPP のプロットです。

私の MFCC と IPP の比較

ログとリフターの段階 (IPP と同じように動作することが確認されています) の後、結果はさらに間違っています。

どんなアイデアや指針も大歓迎です!

編集: IPP 関数に関するドキュメントがここにあることを指摘しておく必要があります。

http://software.intel.com/sites/products/documentation/hpc/ipp/ipps/ipps_ch8/functn_MelFBankInitAlloc.html

これは数学を示しているようです。ただし、正確には yk と ck が何であるかはわかりません...

0 投票する
0 に答える
1539 参照

matlab - MATLAB と SPhinx4 から生成された MFCC ファイルは異なりますか?

MATLAb を使用して .wav ファイルを .mfc ファイルに変換しました。同じことを行う MATLAB コードが 2 つ見つかりました。

http://www.ee.columbia.edu/~dpwe/resources/matlab/rastamat/

http://www.mathworks.in/matlabcentral/fileexchange/32849-htk-mfcc-matlab/content/mfcc/example.m

ただし、どちらも異なるMFCCSを提供しました。そのうちの 1 つは 20 行の mfc ファイルを提供し、もう 1 つは 13 行の mfc ファイルを提供していました。13 の MFCC 係数があると思いますが、13 行は 13 の係数を表していますか? また、2 つの Wave ファイルの MFCC を使用して、一方のサウンドが他方のサウンドでどのように発生したかを調べる必要がありました。しかし、結果は正しくありませんでした。助けてください。

0 投票する
1 に答える
3202 参照

signal-processing - 音声認識における MFCC

私は先週丸々 MFCC と関連する問題を検索しました。これで、2 次元ベクトル coff[56][12] の .wav ファイルから MFCC 機能を取得できるようになりました。12 は抽出したい係数の数で、56 はフレーム数です。私が読んだいくつかのドキュメントによると、12 を超える係数を使用して音声を認識できます (特に、単語「1」、「2」... から「10」までを認識したい)。しかし、今では 12 係数のうち 56 を取得しています。

私が何か間違っている場合は、私を助けてください!!!

0 投票する
1 に答える
369 参照

speech-recognition - MFCC検証

MFCC を抽出するために、実用的な暗号化サイトに基づいて C でいくつかのコードを実装しました。係数値が正しく生成されているかどうかを確認する簡単な方法はありますか?