問題タブ [mfcc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
925 参照

ios - 音声認識 MFCC を使用して発音を修正する

話者の発音を修正するために、客観的な C/C++ で iOS 用の音声認識アプリケーションを構築しています。私は使用しており、使用Mel-Frequency-Cepstrum Coefficientsして 2 つの Sound-Wave を一致させDTW. ています 間違っている場合は修正してください。ここで、文 (2 つのサウンド ファイル) のどの単語が一致しないかを知りたいと思います。例: 私の 2 つのサウンド ファイルは話します

私のアルゴリズムは、何らかの指示によって2番目の単語をどのように指す必要があります。

Match-Box オープン ライブラリを参照用に使用しました。ここにそのリンクがあります。新しいアルゴリズムや新しいライブラリは大歓迎です。

間違った場所に質問を投稿した場合は、適切なリソースに誘導してください。

ちょっとしたヒントも大歓迎です。

0 投票する
1 に答える
2711 参照

matlab - 可変長音声セグメントの MFCC へのニューラル ネットワークの適用

私は現在、MFCC を使用して単純な音声分類を実行するニューラル ネットワークを作成およびトレーニングしようとしています。

現時点では、サンプルごとに 26 の係数を使用し、合計 5 つの異なるクラスを使用しています。これらは、さまざまな数の音節を持つ 5 つの異なる単語です。

While each sample is 2 seconds long, I am unsure how to handle cases where the user can pronounce words either very slowly or very quickly. E.g., the word 'television' spoken within 1 second yields different coefficients than the word spoken within two seconds.

Any advice on how I can solve this problem would be much appreciated!

0 投票する
1 に答える
958 参照

matlab - ケプストラムピッチ検出

このリンクの関数を使用して、matlab の MFCC 機能を使用してピッチ値を取得したい:

ただし、すべての数値は正です (無声値はありません)。

それを適切に行う方法を理解するのを手伝ってください。

ありがとう

0 投票する
1 に答える
827 参照

speech-recognition - mfcc 係数から特徴を抽出する方法

MFCC係数の抽出に成功し、以下の値を取得しました

次に、これらの値から機能を抽出する方法を説明します。ありがとうございました

0 投票する
1 に答える
1669 参照

java - SpeechRecognition API: 音声機能の取得方法 (MEL 係数)

私は Android 用の話者検証アプリを実装しようとしていましたが、Android の音声認識モジュールから音声機能 (MEL 係数) を取得する方法があるかどうか疑問に思っていましたか?

話者認証は音声認識とは少し異なることに注意してください。そのため、音声認識を直接使用していません。