問題タブ [mfcc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - 音声認識 MFCC を使用して発音を修正する
話者の発音を修正するために、客観的な C/C++ で iOS 用の音声認識アプリケーションを構築しています。私は使用しており、使用Mel-Frequency-Cepstrum Coefficients
して 2 つの Sound-Wave を一致させDTW.
ています 間違っている場合は修正してください。ここで、文 (2 つのサウンド ファイル) のどの単語が一致しないかを知りたいと思います。例: 私の 2 つのサウンド ファイルは話します
私のアルゴリズムは、何らかの指示によって2番目の単語をどのように指す必要があります。
Match-Box オープン ライブラリを参照用に使用しました。ここにそのリンクがあります。新しいアルゴリズムや新しいライブラリは大歓迎です。
間違った場所に質問を投稿した場合は、適切なリソースに誘導してください。
ちょっとしたヒントも大歓迎です。
matlab - 可変長音声セグメントの MFCC へのニューラル ネットワークの適用
私は現在、MFCC を使用して単純な音声分類を実行するニューラル ネットワークを作成およびトレーニングしようとしています。
現時点では、サンプルごとに 26 の係数を使用し、合計 5 つの異なるクラスを使用しています。これらは、さまざまな数の音節を持つ 5 つの異なる単語です。
While each sample is 2 seconds long, I am unsure how to handle cases where the user can pronounce words either very slowly or very quickly. E.g., the word 'television' spoken within 1 second yields different coefficients than the word spoken within two seconds.
Any advice on how I can solve this problem would be much appreciated!
matlab - ケプストラムピッチ検出
このリンクの関数を使用して、matlab の MFCC 機能を使用してピッチ値を取得したい:
ただし、すべての数値は正です (無声値はありません)。
それを適切に行う方法を理解するのを手伝ってください。
ありがとう
speech-recognition - mfcc 係数から特徴を抽出する方法
MFCC係数の抽出に成功し、以下の値を取得しました
次に、これらの値から機能を抽出する方法を説明します。ありがとうございました
java - SpeechRecognition API: 音声機能の取得方法 (MEL 係数)
私は Android 用の話者検証アプリを実装しようとしていましたが、Android の音声認識モジュールから音声機能 (MEL 係数) を取得する方法があるかどうか疑問に思っていましたか?
話者認証は音声認識とは少し異なることに注意してください。そのため、音声認識を直接使用していません。