問題タブ [mfcc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mfcc - HTK ツールとサンプリング レート
こんにちは、皆さん。(この文でいいですか?)
音声(単語)認識をHTKツールでシミュレートしてみました。
そして、*.wav ファイルがあります。
サンプリング レートが 16KHz のファイルもあれば、サンプリング レートが 44.1KHz のファイルもあります。
そして、各サンプリングレートについて mfcc ファイルを作成します。
しかし、私はすべて(16KHzと44.1KHz)のmfccファイルを使ってHMMモデルを作っています。
異なるサンプリングレートを混ぜてHMMモデルを作ってもいいですか?
提案ではなく、確実に情報を知る必要があります。
読んでくれてありがとう。
c++ - MFCC 機能の畳み込みニューラル ネット c++
CNN を適用して音声を音声/非音声として分類したいと考えており、同じ MFCC 機能を計算しました。Caffe などのいくつかの NN ライブラリを調べましたが、画像としての入力を期待しているようです。MFCC を CNN の入力として使用するにはどうすればよいですか?
python-3.x - Python Librosa:MFCC機能の計算に使用されるデフォルトのフレームサイズは?
Librosa ライブラリを使用して、オーディオ ファイル 1319 秒の MFCC 機能をマトリックスに生成しました20 X 56829
。ここ20
では、MFCC 機能の数を表します (手動で調整できます)。しかし、オーディオの長さをどのように分割したかはわかりません56829
。オーディオの処理に必要なフレーム サイズは?
python - Numpy を使用して SVM をトレーニングするための MFCC 機能を備えた Python
特にnumpyに問題があります。テスト目的で、2 つの wav ファイルの MFCC をトレーニングしようとしています。両方の配列サイズは同じです。
私が持っている分類器にデータを当てはめようとしているとき
私はこのでこぼこした形状の問題に長い間苦労しており、解決策を見つけることができなかったので、もっと正確に言いましょう。
この時点で、特徴ベクトル 1 に「悲しい」というラベルを付け、2 番目のベクトルに「希望」というラベルを付けて、mfcctestwav のラベルを予測しようとしています。
エラーを返します。
私は配列を分解しようとしましたが、その結果、予測率は 0.5,0.5 になりました。これは、すべての特徴ベクトルを 1 つにマージしたため、驚くことではありませんでした。Numpy の、または一般的には SVM 行列の形成に関して問題があると思います。
http://python-speech-features.readthedocs.io/en/latest/ https://docs.scipy.org/doc/numpy-dev/user/quickstart.htmlのドキュメントを確認しました
しかし、それでも自分で問題を見つけることができませんでした。あらゆる種類の提案と説明をありがとう。
編集:私はその行を知っています
最終的にエラーの原因となる形状 (2, 622, 13) の 3D 配列を作成します。それを 2D 配列に再形成する必要がありますか?もしそうなら、正しい形式とその背後にあるロジックは何でしょうか。
python - Python: MFCC 機能での HMM の実装
入力データとして MFCC 機能 ((20X56829) の Numpy 配列) を使用し、HMM を適用して、HMM のデコードされた状態から音声語彙を作成しようとします。MFCC 機能には 10 人のスピーカーがいます。スピーカーごとに 50 の状態が必要です。したがって、N = 500 ステートを使用するとメモリ エラーがスローされますが、N = 100 ステートでは問題なく動作します。
コードは次のとおりです。
私の初期化に何か問題がありますか?
python - Librosa : MFCC 特徴計算
の音声ファイルが与えられると22 mins (1320 secs)
、Librosa は次の方法で MFCC 特徴を抽出します。
data = librosa.feature.mfcc(y=None, sr=22050, S=None, n_mfcc=20, **kwargs)
data.shape (20,56829) 56829 フレームの 20 個の MFCC 機能の numpy 配列を返します。
私の質問は、56829 をどのように計算したかです。このフレームを達成するための計算はありますか? 各フレームのウィンドウ サイズは?
time-series - mfcc から取得した 2 次元の特徴ベクトル マトリックスに DTW を適用する方法は?
MFCC から取得した 2 つの 2 次元特徴ベクトルがあります。Dynamic Time Warping (DTW) を適用するにはどうすればよいですか? 2 つのベクトルの類似点をパーセンテージで見つけることはできますか?