問題タブ [mfcc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
194 参照

mfcc - HTK ツールとサンプリング レート


こんにちは、皆さん。(この文でいいですか?)

音声(単語)認識をHTKツールでシミュレートしてみました。
そして、*.wav ファイルがあります。
サンプリング レートが 16KHz のファイルもあれば、サンプリング レートが 44.1KHz のファイルもあります。

そして、各サンプリングレートについて mfcc ファイルを作成します。
しかし、私はすべて(16KHzと44.1KHz)のmfccファイルを使ってHMMモデルを作っています。

異なるサンプリングレートを混ぜてHMMモデルを作ってもいいですか?

提案ではなく、確実に情報を知る必要があります。

読んでくれてありがとう。

0 投票する
0 に答える
69 参照

c++ - MFCC 機能の畳み込みニューラル ネット c++

CNN を適用して音声を音声/非音声として分類したいと考えており、同じ MFCC 機能を計算しました。Caffe などのいくつかの NN ライブラリを調べましたが、画像としての入力を期待しているようです。MFCC を CNN の入力として使用するにはどうすればよいですか?

0 投票する
1 に答える
14351 参照

python-3.x - Python Librosa:MFCC機能の計算に使用されるデフォルトのフレームサイズは?

Librosa ライブラリを使用して、オーディオ ファイル 1319 秒の MFCC 機能をマトリックスに生成しました20 X 56829。ここ20では、MFCC 機能の数を表します (手動で調整できます)。しかし、オーディオの長さをどのように分割したかはわかりません56829。オーディオの処理に必要なフレーム サイズは?

0 投票する
0 に答える
975 参照

python - Numpy を使用して SVM をトレーニングするための MFCC 機能を備えた Python

特にnumpyに問題があります。テスト目的で、2 つの wav ファイルの MFCC をトレーニングしようとしています。両方の配列サイズは同じです。

私が持っている分類器にデータを当てはめようとしているとき

私はこのでこぼこした形状の問題に長い間苦労しており、解決策を見つけることができなかったので、もっと正確に言いましょう。

この時点で、特徴ベクトル 1 に「悲しい」というラベルを付け、2 番目のベクトルに「希望」というラベルを付けて、mfcctestwav のラベルを予測しようとしています。

エラーを返します。

私は配列を分解しようとしましたが、その結果、予測率は 0.5,0.5 になりました。これは、すべての特徴ベクトルを 1 つにマージしたため、驚くことではありませんでした。Numpy の、または一般的には SVM 行列の形成に関して問題があると思います。

http://python-speech-features.readthedocs.io/en/latest/ https://docs.scipy.org/doc/numpy-dev/user/quickstart.htmlのドキュメントを確認しました

しかし、それでも自分で問題を見つけることができませんでした。あらゆる種類の提案と説明をありがとう。

編集:私はその行を知っています

最終的にエラーの原因となる形状 (2, 622, 13) の 3D 配列を作成します。それを 2D 配列に再形成する必要がありますか?もしそうなら、正しい形式とその背後にあるロジックは何でしょうか。

0 投票する
0 に答える
1151 参照

python - Python: MFCC 機能での HMM の実装

入力データとして MFCC 機能 ((20X56829) の Numpy 配列) を使用し、HMM を適用して、HMM のデコードされた状態から音声語彙を作成しようとします。MFCC 機能には 10 人のスピーカーがいます。スピーカーごとに 50 の状態が必要です。したがって、N = 500 ステートを使用するとメモリ エラーがスローされますが、N = 100 ステートでは問題なく動作します。

コードは次のとおりです。

私の初期化に何か問題がありますか?

0 投票する
1 に答える
3047 参照

python - Librosa : MFCC 特徴計算

の音声ファイルが与えられると22 mins (1320 secs)、Librosa は次の方法で MFCC 特徴を抽出します。 data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)

data.shape (20,56829) 56829 フレームの 20 個の MFCC 機能の numpy 配列を返します。

私の質問は、56829 をどのように計算したかです。このフレームを達成するための計算はありますか? 各フレームのウィンドウ サイズは?

0 投票する
1 に答える
484 参照

time-series - mfcc から取得した 2 次元の特徴ベクトル マトリックスに DTW を適用する方法は?

MFCC から取得した 2 つの 2 次元特徴ベクトルがあります。Dynamic Time Warping (DTW) を適用するにはどうすればよいですか? 2 つのベクトルの類似点をパーセンテージで見つけることはできますか?