問題タブ [mfcc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
speech-recognition - MFCC を PointList および GMM に変更する方法
comirva パッケージを使用して感情認識プログラムを作成します。
怒りや喜びなどの感情に関する wav ファイルがたくさんあります。
gmm を作成するために、まず、argry ファイルの 1 つから mfcc 機能を抽出しました。
私が混乱したのは、mffccs を pointlist に変更する方法です。
どれが正しいですか?i) 1 つのファイルから抽出した mfcc を 1 つの pointList に変更する ii) 複数のファイルから抽出した mfccs を 1 つの pointList に変更する
speech-recognition - MFCCs製クラスターとは?
MFCC + GMM を使用して感情認識プログラムを作成します。
Androidなので、comirvaというJavaパッケージを使用しています。
このパッケージと感情発話 DB を使って、AngryGMM、happyGMM などの各感情の GMM を作成します。
GMM を作成する前に、KMeanClustering オブジェクトを作成し、クラスター番号を初期化しました。
私の知る限り。クラスタ番号を 3 に初期化すると、ポイントのセットが 3 つのクラスタに分割されます。
しかし、1つのクラスターが何を意味するのかわかりません。
Q1) 1つのクラスターとは何を意味しますか? パターンマッチングで使用されるだけですか?
GMM を作成した後、KMeansClustering で一度使用したポイント リストを使用して GMM.EM アルゴリズムを実行します。Q2) GMM はこのポイント リストから作成されているのに、トレーニングでは同じポイント リストが使用されるのはなぜでしょうか。
android - Androidで使用できるMFCCライブラリはありますか?
私のチームは、音声アプリで感情認識を行っています。
mfcc を取得するには、comirva パッケージを使用します。
問題は、AudioPreProcessor を作成するために必要な AudioInputStream が Android で使用できないことです。
そのため、私たちはある種の代替手段を見つけてきました。
Androidでmfccを取得する方法はありますか?
speech-recognition - gmm から得られた私の尤度値は正しいですか?
私はスピーチでプログラムの感情認識を行っています。
mfcc + K-mean + GMM を使用すると、-15012、-43400、-8000 のような尤度が得られました
それは私よりもはるかに大きな価値でした。適正値ですか?
Wave ファイルの長さは通常 2 ~ 3 で、以下のオプションを使用して初期化します。
mfcc - ActiveX コントロールの使用中にデバッグ アサーションが失敗しました
このフォーラムと MFC の初心者です... Debug Assertion Failed を取得しています
ActiveX コントロールの使用中。これについて私を案内してください..私のコードは
このような:
OCR ボタンをクリックした後、次の行で Debug assertion failed を取得していました: pVal = (IUnknown *) m_MIDOCtrl.GetDocument(); 再試行を押すと、コントロールは winocc.cpp の ASSERT(m_pCtrlsite != NULL ) になり、デバッグ中に {CMIDOCView hWnd = 0x0000000} であることがわかりました。
ここで何が間違っているのか誰か教えてください??
皆さん、ありがとうございました..
speech-recognition - C/C++ のメル周波数ケプストラム係数 (MFCC)
C/C++ で利用できる MFCC の実装はありますか? ソースコードまたはライブラリはありますか?
私はすでにhttp://code.google.com/p/libmfcc/を見つけましたが、これは良さそうです。
signal-processing - MFCC-13係数
私が見つけたこの論文(http://arxiv.org/pdf/1003.4083.pdf)に基づいてMFCCアルゴリズムを計算しようとしているので、これまでに行ったことは次のとおりです。
ステップ1)プリエンファシス
ステップ2)フレーミング
ステップ3)ハミングウィンドウ
ステップ4)高速フーリエ変換
ステップ5)メルフィルターバンク処理
ステップ6):離散コサイン変換
基本的に、私はMel Bankフィルターを使用して、実際の生の信号を乗算しました。次に、これらの結果に対してFFTを実行しました。これは次のようになります。
フレーム1のFFT:
次に、FFTのDCTを計算しました。その結果は、次のようになります。
フレーム1のDCT:
これは今のところ正しいように見えますか?私がこれをチェックして、私が正しい方向に進んでいることを知る方法さえありますか?
また、13の係数を取得する必要がありますが、これらのどれを取得するかを決定する方法がわかりません。256個の値を取得しますが、最初の13個を取得しますか?または、私は総エネルギーを取得しますか?
誰かが私を助けてくれることを願っています。
algorithm - 動的タイムワーピング-値の比較
これが間違ったフォーラムにある場合はお詫びします。
さて、2つの異なる音声信号を比較しようとしていますが、問題が発生しました。ここに行きます:
信号をブロックに分割し、各ブロックのMFCC係数を計算しました。次に、DTWアルゴリズムを使用して、(入力された)信号をトレーニング信号と比較します。
編集(このアルゴリズムは機能しますか)?
アルゴリズムを更新しました(ウィキペディアの記事から作成):
1Dではなく2Dベクトルを処理するようになりました。これは、1だけではなく、ある範囲の数値を出力していたため、私が間違っていた場所だと思います。
(実際の、トレーニング)MFCCに入力された値がまったく同じである場合、差は「0」になり、差はありません。トレーニング値で確認する必要がありますが、このアルゴリズムは正しく見えますか?
signal-processing - HMM - トレーニング データと形式
特定の単語を識別するために、HMM (隠れマルコフ モデル) を実装したいと考えています。これまでのところ、信号の係数 (MFCC) を抽出することができましたが、HMM をトレーニングするためにこれが正しいデータであるかどうか疑問に思いましたか?
また、HMM をトレーニングするための形式 (以下) は正しいですか?
形式:
各サンプルには、一連の MFCC 係数があります。例として、これらのサンプルのうちの 2 つを提供しました...
-13.8033 0.645476 3.2174 -0.625136 -0.470134 -2.96368 0.701151 0.464246 1.1898 -1.88515 0.0805242 0.311573 0.732487
-19.4252 -5.65454 0.853437 0.317219 0.146167 -1.93742 0.381944 -2.01793 -0.561144 -0.896783 -0.105491 -1.06504 -0.797318
誰かが助けてくれることを願っています:)
svm - mfcc 機能を使用して音声認識用に svm 分類子をトレーニングする方法は?
私は現在、音声認識を使用したディスカッション フェーズのプロジェクトに参加しています。MFCC 特徴抽出を使用していますが、関数から返される MFCC 特徴は行列です。各音声ファイル (wav) の (20,38) 特徴行列。しかし、どうすればこの機能を SVM 分類器に渡すことができますか。SVM (およびその他の分類子) の場合、各サンプルはベクトルで表されますよね? ただし、各サンプルの MFCC 機能はマトリックスです。Xi がサンプル i の MFCC 機能であると仮定すると、SVM に渡されるサンプル i の機能は次のとおりです。1) 20*38 ベクトル。Matlab 形式の Xi(:)。2) 平均 (Xi)。3) Xi の列または行の 1 つ。どの方法が正しいですか?このための有用なコード、紙はありますか?
ありがとう!輝く