ユーザーの発音をテストできるプログラムを作成しようとしています。
このプログラムは波の音、たとえば英文を再生し、ユーザーはそれを発音して自分の声を録音しようとします。プログラムはその波形の類似性をチェックし、ユーザーの発音にポイントを与えます。
問題は、.net を使用してこのプログラムを作成できるかどうかです。はいの場合、どのライブラリを使用できますか? 始めるためのガイドはありますか?
音楽認識プログラムは通常、(ピッチをキャプチャするために) スペクトル ドメインでサウンドを表します。
一部のスペクトル表現から、距離測定 (ユークリッドまたはその他) を使用できます。
音声の場合、時間次元が必要です。
空間ドメインでは、時間の変形 (遅い vs 速い) を説明するワーピング測定も適切な選択のようです。
テンプレート マッチング アルゴリズムは、OCR アルゴリズムと同様に良い候補になる可能性がありますが、ここでは音波を扱うことになります。
音波アルゴリズムに関する通常の考慮事項は、スライディング ウィンドウまたはセグメンテーションです。