問題タブ [mfcc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1347 参照

r - MFCC から GMM をトレーニングするためのライブラリ

MFCC、そのデルタ、およびデルタデルタを使用して、音声から基本的な感情検出器を構築しようとしています。これらの機能で GMM をトレーニングすることにより、優れた精度を得ることについて多くの論文が述べています。

同じことをするための既製のパッケージが見つからないようです。Python の scilearn、Voicebox、および Matlab の同様のツールキットと Rmixmod、stochmod、mclust、mixtools、および R のその他のパッケージをいじってみました。トレーニングされたデータから GMM を計算するのに最適なライブラリは何でしょうか?

0 投票する
0 に答える
888 参照

android - CoMIRVAパッケージはandroidで使えますか?

Android アプリケーションで音声認識に使用できるように、リアルタイムで MFCC 機能を抽出することを計画しています。同じために、CoMIRVA と呼ばれる Java で利用可能なパッケージがあることがわかりました。アプリケーション用のパッケージを使用しようとしましたが、エラーが発生します。

これは、MFCC クラスのオブジェクトを作成しているコードの一部です。float サンプルレート = 8000; プライベート MFCC mfcc_inst=新しい MFCC(サンプルレート);

クラスのどのメソッドもまだ使い始めていません。アプリケーションの残りの部分には、AudioRecord クラスと AudioTrack クラスを使用したリアルタイムのオーディオ録音と再生のためのコードが含まれています。アプリを実行すると、オブジェクトを作成する行でエラーが発生します。以下にログファイルの該当部分を掲載します

E/AndroidRuntime(871): 致命的な例外: メイン

E/AndroidRuntime(871): java.lang.VerifyError: comirva/audio/util/math/Matrix

E/AndroidRuntime (871): comirva.audio.util.MFCC.getMelFilterBanks (MFCC.java:267) で

E/AndroidRuntime(871): comirva.audio.util.MFCC.(MFCC.java:162) で

E/AndroidRuntime(871): comirva.audio.util.MFCC.(MFCC.java:71) で

E/AndroidRuntime(871): com.example.mfcc.MFCCActivity.(MFCCActivity.java:46) で

E/AndroidRuntime(871): java.lang.Class.newInstanceImpl(ネイティブメソッド)

E/AndroidRuntime(871): java.lang.Class.newInstance(Class.java:1319) で

E/AndroidRuntime(871): android.app.Instrumentation.newActivity(Instrumentation.java:1023) で

E/AndroidRuntime(871): android.app.ActivityThread.performLaunchActivity(ActivityThread.java:1871) で

E/AndroidRuntime(871): android.app.ActivityThread.handleLaunchActivity(ActivityThread.java:1981) で

E/AndroidRuntime(871): android.app.ActivityThread.access$600(ActivityThread.java:123)

E/AndroidRuntime(871): android.app.ActivityThread$H.handleMessage(ActivityThread.java:1147) で

E/AndroidRuntime(871): android.os.Handler.dispatchMessage(Handler.java:99) で

E/AndroidRuntime(871): android.os.Looper.loop(Looper.java:137)

E/AndroidRuntime(871): android.app.ActivityThread.main(ActivityThread.java:4424) で

E/AndroidRuntime(871): java.lang.reflect.Method.invokeNative(ネイティブ メソッド) で

E/AndroidRuntime(871): java.lang.reflect.Method.invoke(Method.java:511) で

E/AndroidRuntime(871): com.android.internal.os.ZygoteInit$MethodAndArgsCaller.run(ZygoteInit.java:784) で

E/AndroidRuntime (871): com.android.internal.os.ZygoteInit.main (ZygoteInit.java:551) で

E/AndroidRuntime(871): dalvik.system.NativeStart.main(ネイティブメソッド)

ありがとう!!

0 投票する
1 に答える
235 参照

pattern-matching - DTW セットアップを使用した MFFC での異常値の処理

ユーザーが最初にコマンドを記録し、後でシステムがそれらを認識しようとする小さなコマンド認識システムがあります。フロントエンドの特徴ベクトルは MFCC の係数です。バックエンドは、DTW を使用してこれらの特徴ベクトルを整列させ、スコアを出力することを使用して認識を行います (0 -> コマンドは等しい)。このセットアップの問題は、コマンド (ユーザーが記録したもの) を他の単語と区別することです。コマンドが認識されるしきい値として最大スコアを選択しても、良い結果は得られません。記録された特徴をより分離可能な別の特徴空間に投影する目的で、LDA と PCA を調べました。記録された各コマンドは、そのコマンドのフレームに関連付けられたフロントエンドからの特徴ベクトルをサンプルとして持つクラスです。それから、LDA に必要な変換を計算し、その変換を結果の MFCC 係数の各セットに適用しました。これでは、記録されたコマンドと urecorded コマンドを分離できませんでした。

私の質問は次のとおりです。

  • LDAを適用するアプローチは間違っていますか?
  • 私のセットアップに適した他の方法はありますか (MFCC + DTW)?

どんな助けや指導も大歓迎です。

ありがとうございました

0 投票する
3 に答える
4300 参照

matlab - 音声認識プログラムに適した MATLAB mfcc gmdistribution

私はMatlabが初めてで、信号処理プロジェクト(音声認識)を行っています。いくつかの計算を行った後、行列で MFCC (メル周波数ケプストラル係数) として知られるいくつかの値を取得します。関数 gmdistribution.fit(X,k) を使用してガウス混合モデル (GMM) 分布を適用することになっています。しかし、エラーが発生し続けます。

わかりません どうすれば直せますか?行列の転置を試みましたが、他のエラーが発生しました。

私の MFCC 行列は通常、13 行と約 50 ~ 80 列です。

これを修正する方法についてのアイデアはありますか? 一度に最大 12 列のみを使用する必要がありますか? または、音声認識で最尤 (ML) 推定値を取得するための代替の期待値最大化 (EM) アルゴリズムは何でしょうか?

音声から mfcc 特徴ベクトルを抽出した後に得られるサンプル マトリックスを次に示します。

0 投票する
1 に答える
3448 参照

speech-recognition - メル周波数ケプストラム係数 - 音声特徴抽出

私は現在、右クリック、左クリック、ダブルクリックなどのマウスイベントが音声コマンドとして与えられる音声認識に関連するプロジェクトを行っています。したがって、最初のステップとして、上司はメル周波数ケプストラム係数を使用して各音声コマンドの特徴を抽出し、抽出した特徴を LIBSVM 形式を使用してテキスト ファイルに保存するように私に言いました。私は、インターネットでいくつかの参照を使用して MFCC を実装しました。しかし、これがどこで正しいのかわかりません。MFCCの出力についてはよくわかりません。「正しい」と言うと、私のプログラムはこのようなものを与えます

  1. アウトプットの王様が MFCC から得られるべきものを誰か説明できますか
  2. MFCC から抽出された特徴を LIBSVM 形式で保存する方法。
  3. そして、私の問題に対する MFCC の正しい mathlab 実装を見つけるのを手伝ってくれる人がいます。
0 投票する
2 に答える
1493 参照

c++ - MFCC で最初の 13 個の係数を取得する方法

MFCCで困っています。チュートリアルを段階的に実行しました。ステップ「ウィンドウ処理」の後、すべてのフレームの DFT を計算します。私の質問は次のとおりです。「メル フィルター バンク」、「ログ」、「DCT」を含む残りの手順は、すべてのフレームに適用されますか? ステップ「DCT」では、以前に計算された最初の 13 個の係数を使用するため、混乱しています。では、どのフレームを使用する必要がありますか? 私は本当に明確な説明が必要です:(

0 投票する
1 に答える
611 参照

mfc - MFC: ポリゴン領域にフェードイン、フェードアウト効果を追加する

自分で作成した特定の領域をフェードイン、フェードアウトしたい。しかし、animatewindow() を使用すると、以前にポリゴン領域を作成したときに表示されなかったウィンドウ全体がフェードアウトします。どうすればいいですか?助けていただければ幸いです。