問題タブ [mfcc]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

304 問題

0 投票する

1 に答える

194 参照

mfcc - HTK ツールとサンプリングレート

こんにちは、皆さん。~~（この文でいいですか？）~~

音声(単語)認識をHTKツールでシミュレートしてみました。
そして、*.wav ファイルがあります。
サンプリングレートが 16KHz のファイルもあれば、サンプリングレートが 44.1KHz のファイルもあります。

そして、各サンプリングレートについて mfcc ファイルを作成します。
しかし、私はすべて(16KHzと44.1KHz)のmfccファイルを使ってHMMモデルを作っています。

異なるサンプリングレートを混ぜてHMMモデルを作ってもいいですか？

提案ではなく、確実に情報を知る必要があります。

読んでくれてありがとう。

mfcc htk

2016-06-02T03:18:53.153

0 投票する

0 に答える

69 参照

c++ - MFCC 機能の畳み込みニューラルネット c++

CNN を適用して音声を音声/非音声として分類したいと考えており、同じ MFCC 機能を計算しました。Caffe などのいくつかの NN ライブラリを調べましたが、画像としての入力を期待しているようです。MFCC を CNN の入力として使用するにはどうすればよいですか?

c++neural-network classification caffe mfcc

2016-06-15T12:56:09.080

0 投票する

1 に答える

14351 参照

python-3.x - Python Librosa:MFCC機能の計算に使用されるデフォルトのフレームサイズは?

Librosa ライブラリを使用して、オーディオファイル 1319 秒の MFCC 機能をマトリックスに生成しました20 X 56829。ここ20では、MFCC 機能の数を表します (手動で調整できます)。しかし、オーディオの長さをどのように分割したかはわかりません56829。オーディオの処理に必要なフレームサイズは?

python-3.x audio mfcc

2016-06-22T08:51:52.863

0 投票する

0 に答える

975 参照

python - Numpy を使用して SVM をトレーニングするための MFCC 機能を備えた Python

特にnumpyに問題があります。テスト目的で、2 つの wav ファイルの MFCC をトレーニングしようとしています。両方の配列サイズは同じです。

私が持っている分類器にデータを当てはめようとしているとき

私はこのでこぼこした形状の問題に長い間苦労しており、解決策を見つけることができなかったので、もっと正確に言いましょう。

この時点で、特徴ベクトル 1 に「悲しい」というラベルを付け、2 番目のベクトルに「希望」というラベルを付けて、mfcctestwav のラベルを予測しようとしています。

エラーを返します。

私は配列を分解しようとしましたが、その結果、予測率は 0.5,0.5 になりました。これは、すべての特徴ベクトルを 1 つにマージしたため、驚くことではありませんでした。Numpy の、または一般的には SVM 行列の形成に関して問題があると思います。

http://python-speech-features.readthedocs.io/en/latest/ https://docs.scipy.org/doc/numpy-dev/user/quickstart.htmlのドキュメントを確認しました

しかし、それでも自分で問題を見つけることができませんでした。あらゆる種類の提案と説明をありがとう。

編集：私はその行を知っています

最終的にエラーの原因となる形状 (2, 622, 13) の 3D 配列を作成します。それを 2D 配列に再形成する必要がありますか?もしそうなら、正しい形式とその背後にあるロジックは何でしょうか。

python numpy machine-learning svm mfcc

2016-06-22T19:31:47.010

0 投票する

0 に答える

1151 参照

python - Python: MFCC 機能での HMM の実装

入力データとして MFCC 機能 ((20X56829) の Numpy 配列) を使用し、HMM を適用して、HMM のデコードされた状態から音声語彙を作成しようとします。MFCC 機能には 10 人のスピーカーがいます。スピーカーごとに 50 の状態が必要です。したがって、N = 500 ステートを使用するとメモリエラーがスローされますが、N = 100 ステートでは問題なく動作します。

コードは次のとおりです。

私の初期化に何か問題がありますか?

python audio mfcc hmmlearn

2016-06-30T07:39:13.297

0 投票する

1 に答える

3047 参照

python - Librosa : MFCC 特徴計算

の音声ファイルが与えられると22 mins (1320 secs)、Librosa は次の方法で MFCC 特徴を抽出します。 data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)

data.shape (20,56829) 56829 フレームの 20 個の MFCC 機能の numpy 配列を返します。

私の質問は、56829 をどのように計算したかです。このフレームを達成するための計算はありますか? 各フレームのウィンドウサイズは?

python audio audio-processing mfcc

2016-07-01T15:36:24.303

0 投票する

1 に答える

484 参照

time-series - mfcc から取得した 2 次元の特徴ベクトルマトリックスに DTW を適用する方法は?

MFCC から取得した 2 つの 2 次元特徴ベクトルがあります。Dynamic Time Warping (DTW) を適用するにはどうすればよいですか? 2 つのベクトルの類似点をパーセンテージで見つけることはできますか?

time-series cluster-analysis mfcc

2016-07-26T05:30:35.323

1 2 3 4 5 6 7 8 9 10

問題タブ [mfcc]

Reference