問題タブ [mfcc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
104 参照

c++ - 例外が発生しました: ベクトル添え字が範囲外です

aquila DSP LIb を使用して、波の mfcc と dtw を計算しようとしています。しかし、次のコードを実行すると

この例外が発生しました。ベクトル添字が範囲外 ファイル: c:\program files\microsoft visual studio 8\vc\include\vector 行: 1124

問題は何ですか?

0 投票する
1 に答える
839 参照

python - GMM 分類器 (sklearn ライブラリ) を供給するために MFCC に適用される PCA

PCAを使用して特徴ベクトルの次元を削減する必要がある(おそらく単純な)問題に直面しています。これらすべての要点は、音素で構成された文を予測する分類器を作成することです。私は、人々が発音した何時間もの文 (文はわずか 10 文) でモデルをトレーニングします。各文には、一連の音素で構成されたラベルがあります (以下を参照)。

私がこれまでに行ったことは次のとおりです。

抽出する各PCAを同じ形状にすると同時に、次元を減らすにはどうすればよいですか?

また、新しいことも試しました。PCA ベクトルを取得する for ループ内で gmm_classifier.fit(...) を呼び出します(以下のコードを参照)。関数fit()は機能しますが、実際に GMM を正しくトレーニングしているかどうかはわかりません。

どうもありがとう

0 投票する
0 に答える
1603 参照

audio - MFCCの意味

概念的な問題があります。

私はメルスケールとは何か、それが何を表しているのかを知っています。

スペクトログラムの情報量を減らしたい場合は、MFCC を使用すると思います。

しかし、MFCC とは何か、またそれが何を表しているのか、よくわかりません。音声認識プロセスで MFCC マトリックスを使用していますが、そのベクトル内のすべての数値が何を表しているのかわかりません。

配列は 13x130 で、これらすべてのフロートが何を意味するのかわかりません。オーディオトラックが長いほど、マトリックスが大きくなることがわかりました(例:13x250、13x400)。

私は自分自身を明確にすることを願っています。

0 投票する
1 に答える
410 参照

signal-processing - 単純な音声アクティビティ検出に MFCC 係数を使用する

MFCC 係数は、周波数帯域の振幅に関する情報を格納するため (使用するフィルター バンクによって異なります)、これらの係数を音声アクティビティ検出にどのように使用できますか?

この係数を使用して、さらなるエネルギー計算を実行し、それらを使用して決定を下すだけで十分でしょうか?

0 投票する
2 に答える
429 参照

matlab - メル頻度関数: 行列次元の誤差

このリンクをたどって、プロトタイプの音声認識システムを作成しようとしています: http://www.ifp.illinois.edu/~minhdo/teaching/speaker_recognition/ . 非常に簡単なので、心配する必要はほとんどありません。しかし、私の問題はメル周波数関数にあります。ウェブサイトで提供されているコードは次のとおりです。

しかし、それは私にエラーを与えました:

使用中のエラー * 内部マトリックスの次元は一致する必要があります。

MFFC のエラー (17 行目) z = m * abs(f(1:n2)).^2;

17 行目の直前に次の 2 行を含めると、次のようになります。

それは私に与えました:

では、2 番目の行列を転置する必要がありますか? または、これを行単位の乗算として解釈し、コードを変更する必要がありますか?

編集:これが主な機能です(私は単にMFCC()を実行します):

そして、ここに補助機能があります:

0 投票する
1 に答える
8601 参照

python-2.7 - LSTM バイナリ分類用の音声データセットの構築

theano を使用してバイナリ LSTM 分類を実行しようとしています。サンプル コードを確認しましたが、独自のコードを作成したいと考えています。

私が使用している「Hello」と「Goodbye」の録音の小さなセットがあります。これらの MFCC 機能を抽出し、これらの機能をテキスト ファイルに保存することで、これらを前処理します。20 個の音声ファイル (それぞれ 10 個) があり、単語ごとにテキスト ファイルを生成しているので、MFCC 機能を含む 20 個のテキスト ファイルがあります。各ファイルは 13x56 のマトリックスです。

私の問題は次のとおりです:このテキストファイルを使用してLSTMをトレーニングするにはどうすればよいですか?

私はこれに比較的慣れていません。私もそれに関するいくつかの文献を調べましたが、その概念を本当によく理解しているとは思いませんでした。

LSTM を使用する簡単な方法も歓迎します。

0 投票する
0 に答える
388 参照

java - Android で .wav を読む際のフレーム番号

このリンクのReading Wav Filesコードを使用して .wav ファイル (44100 サンプル レート) を読み取り、double[frameNumber] バッファーにデータを取得しました。しかし、私を混乱させているのは、フレームのサイズです。なぜ、フレーム番号を読み取るために 100 に設定したのですか? また、記録したすべての異なる .wav の合計フレーム数を確認すると、それらは異なる番号を持ち、数値が大きすぎます。このバッファから mfcc を実行したいのですが、すべてのフレームのすべてのデータを使用して処理する必要がありますか?

0 投票する
1 に答える
2219 参照

machine-learning - MFCC係数ベクトルを使用して機械学習アルゴリズムをトレーニングする方法は?

私の最終年度のプロジェクトでは、犬/樹皮/鳥の音をリアルタイムで識別しようとしています (サウンド クリップを録音することによって)。オーディオ機能として MFCC を使用しています。最初に、jAudio ライブラリを使用してサウンド クリップから 12 個の MFCC ベクトルを抽出しました。今、私は機械学習アルゴリズムを訓練しようとしています (現時点ではアルゴリズムを決定していませんが、おそらく SVM です)。サウンド クリップのサイズは約 3 秒です。このプロセスに関するいくつかの情報を明確にする必要があります。彼らです、

  1. フレームベースの MFCC (フレームごとに 12) または全体的なクリップベースの MFCC (サウンドクリップごとに 12) を使用して、このアルゴリズムをトレーニングする必要がありますか?

  2. アルゴリズムをトレーニングするには、12 の MFCC すべてを 12 の異なる属性と見なす必要がありますか、それとも 12 の MFCC を 1 つの属性と見なす必要がありますか?

これらの MFCC は、クリップの全体的な MFCCS です。

-9.598802712290967 -21.644963856237265 -7.405551798816725 -11.638107212413201 -19.441831623156144 -2.780967392843105 -0.5792847321137902 -13.14237288849559 -4.920408873192934 -2.7111507999281925 -7.336670942457227 2.4687330348335212

これらの問題を克服するために、どんな助けも本当に感謝しています。Google で適切なヘルプを見つけることができませんでした。:)

0 投票する
1 に答える
147 参照

machine-learning - 学習ベクトル量子化 (LVQ) アンバランス入力サイズ

私は LVQ を学習したばかりで、mfcc (メル周波数ケプストラム係数) の結果を使用して実装したいと考えています。私が知る限り、私が研究したすべての例には、次のような均一なトレーニングと入力データサイズの配列があります。

x1[2][4] = {{0,1,1,1},{1,1,1,1},[{1,1,0,1}}

x2[2][4] = {{0,1,1,0},{1,1,0,1},{1,0,0,1}}

x3[2][4] = {{1,0,1,0},{1,1,1,0},{0,0,0,1}}

しかし、私のmfcc結果のデータサイズは次のように不均衡です:

x1 1 [4] = {{0,1,1,1},{1,1,1,1}}

x2[2][4] = {{0,0,1,0},{1,1,0,1},{1,0,0,1}}

x2[4][4] = {{0,0,1,0},{1,1,0,1},{1,0,0,1},{0,1,1,1},{ 1,0,1,0}}

では、LVQ トレーニングと入力用のこの不均衡なデータ サイズをどのように処理すればよいでしょうか?