問題タブ [mfcc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
105 参照

android - Android Studio での Comriva のビルド

Comriva ライブラリを使用して、MFCC 機能を音声認識プロジェクトに抽出しています。そして、comriva コア パッケージをプロジェクトにインポートしました。ビルドするのに疲れたとき、gradleでこのエラーが発生しました。

これまでのところ、simple-xml のような xml ライブラリは含まれていません。

これは私の gradle.build ファイルです。

この問題を克服するために私を助けてください。

0 投票する
1 に答える
990 参照

mfcc - mfcc からのデルタ係数

フレームの MFCC からデルタ係数を計算する方法について説明してもらえますか? 実用暗号のチュートリアルの解釈がわかりませんでした。

0 投票する
2 に答える
880 参照

python-2.7 - シーケンスで配列要素を設定する (MFCC+fastDTW、Python)

RPi と Python を使用して音声コマンド プロジェクトをビルドしたいと考えています。MFCC と fastDTW を使用してその声を一致させていますが、このエラーが発生し、修正方法がわかりません。ここでコード...

実行ファイル:

そして、これはエラーメッセージです:

*** mccc の出力は numpy 配列形式です。助けてください....

0 投票する
0 に答える
522 参照

c++ - Windows 10 タスク バー アイコンのコンテキスト メニューのタイトルを設定します。

Microsoft Windows 用のテキストおよびクリップボード リーダーである、自分用に作成したオープン ソース アプリケーションがあります。想像を絶する TTSApp という名前のアプリケーションは、私の Web サイト にあります。

アプリケーションは MFC を使用し、Visual Studio 2013 または Visual Studio 2015 のいずれかでビルドできますが、ウィンドウのサイズ変更は、Visual Studio 2013 でビルドされた場合にのみ適切に機能します。コンパイラ。

現在、音声には SAPI 5 または Microsoft Speech Platform を使用しています。

アプリケーションのタイトルを作成して、使用されている構成 (SAPI または Microsoft Speech Platform) と、使用されているアーキテクチャ (x86 または x64) を示す GetTitle 関数があります。たとえば、x64 プラットフォーム用にビルドされた Microsoft Speech Platform 構成のタイトルは、"SnKOpen TTSApp - Microsoft Speech Platform - x64" です。このタイルは、ダイアログ ボックスのウィンドウ タイトルとアプリ名の両方に使用されます (関数によって返される値は、CWinApp クラスのコンストラクターに渡されます)。アプリ名は、アプリケーション設定が保存される Windows レジストリ キーを生成するために使用されることに注意してください。

Windows 10 タスク バー アイコンのコンテキスト メニューのタイトルを設定する方法がわかりません。次のスクリーンショットは、私が何を意味するかを示しています。

TTSApp Windows 10 タスクバー アイコン コンテキスト メニュー

上の画像の TTSApp をダイアログ ボックスのタイトル バーと同じに設定したいと思います。

CTTSAppApp クラスのコンストラクターからSetCurrentProcessExplicitAppUserModelID Win32 API 関数を呼び出すCWinApp::SetAppIDを呼び出してみましたが、うまくいきませんでした。

SetCurrentProcessExplicitAppUserModelID の説明は、関数が「現在のプロセスをタスクバーに識別する一意のアプリケーション定義のアプリケーション ユーザー モデル ID (AppUserModelID) を指定する」ため、これが私が望むことを達成する方法であることを暗示しています。

私が次に何を試みるべきかについて誰か提案がありますか?

0 投票する
1 に答える
1959 参照

speech-recognition - MFCCで特徴抽出したLSTMによる音声認識

深層ニューラル ネットワーク、特に LSTM を研究して、このリンクで提案されているアイデアに従うことにしました: LSTM バイナリ分類用の音声データセット を構築して、分類器を構築します。

MFCC を抽出する機能があり、各配列は単語の各音素が 13x56 です。トレーニングデータは次のようになります。

確かに最初のフレームであるレタリングでは、ラベルは「仲介者」と呼ばれ、最後のフレームのみが実際に音素を表していますか?

これは本当に正しいでしょうか?最初のテストでは、この「仲介者」を最も普及しているというラベルを付ける傾向があると予想されるすべてのアウトレットを実行しました。他のアプローチを使用できますか?

0 投票する
0 に答える
76 参照

signal-processing - 分類器としてのダイナミック タイム ワーピング、良いアイデアですか?

読み始める前に、下手な英語を許してください、ありがとう。

私はリビアのコンピューター工学コースの最終学年です。

私の卒業プロジェクト名は「分類器融合法を用いた孤立単語の音声認識システム」です。このプロジェクトの基本的な考え方は、数字 (0 ~ 9) の 1 秒の記録を入力すると、それがテキストとして画面に表示されるというものです。私の手順は次のとおりです。

そのため、MFCC を使用して機能を抽出した後、MED を使用して、ASR システム全体を見て、それがどのように機能するかを視覚化しました。それから私は DTW 分類子から始めました。正直なところ、私はそれを正しく行っているかどうか確信が持てません。したがって、ここにコードを示します。以前に DTW を分類子として使用したことがある場合は、DTW を使用するのが良い考えかどうか教えてください。それで、私はそれを正しくやっていますか?

test.mat には 2 つの変数があります。'm' は 1 番目の話された単語、'b' も 1 番目の話された単語ですが、すべてが単独で記録されたので、'm' を保持して比較します記録された単語2に対して、1vs1のコストは1vs2よりも小さくなければなりませんが、私の場合はそうではありません.なぜですか????

よろしくお願いします