私は教育目的でプロジェクトのアイデアに取り組んでいます/研究しており、音声認識に関するプロジェクトをやりたいと思っています。基本的に、プロジェクトとアルゴリズムは (.wav) ファイルの入力を受け取り、話している人が「はい」と言っているのか「いいえ」と言っているのかを識別します。線形予測コーディングの使用を検討しています。
基本的に、頭の中で、次のアルゴリズムを考えています。
- .wav (生データ) をベクターに読み込む
- ベクトルを同じサイズのブロックに分割します
- 特定の特性のために各ブロックを処理する
- モデルが生成された電話の文字列に最も一致する可能性が高い単語を見つけます。
次に、相関などの類似性測定を使用して、正しい電話を見つけたいと思います。
したがって、基本的に、データファイルが読み込まれた後、ブロックに分割されます。次のように含まれている必要があります。
rawdata =
[0] => 'Y',
[1] => 'E',
[2] => 'S'
または、電話と比較できる頻度の結果が含まれます。
私の質問は、これは問題を解決するためにうまくいく良いアルゴリズムのように見えるかということです..
次の質問:
.wav ファイルをメモリに読み込もうとすると、次のような結果が得られます..
20 30 10 30 40 50 .. 20 20 .. 10 20 .. 60 40
10 20 30 40 50 60 ... .. . . . .
それらはすべて整数値なので、すべてのヘッダー情報を取得したら..残りのデータは、正しいメディアに変換する必要があるものであり、これがデータです..? 私はちょっと混乱しています。
誰かが私を助けてくれることを願っています。問題を正しく書きました。ありがとう。