私は個人的な研究プロジェクトに取り組んでいます。
私の目的は、音を認識し、その波形をデータベース内の波形と比較して、IPA に属しているかどうかを識別できるようにすることです。Mathematica、SciPy、PyBrain のスキルがあります。
最初のフェーズでは、英語 (米国) の音声アルファベットのみを使用しています。私は、オンラインで見つけた英語の音声アルファベット サウンド ファイルの簡単なテスト バンクを持っています。ここでのトリックは次のとおりです。
サウンド ファイルを、異なる音節に対応する波形に分割したいと考えています。これには、学習アルゴリズムが必要です。したがって、「I like apples」は文を構成する音節の波形に分割されます。
次に、各波形を英語の PA の波形と比較します。この部分のやり方がよくわかりません。Praat を使用して波形を検出し、波形の画像をキャプチャして、データベースに保存されている画像解析と比較することを考えていました (これは楽しいことです)。
ここでの問題は、Praat に波形ファイルを自動的に生成させ、それを音節間で波形チャンクに分割する方法がわからないことです。論理的には、学習アルゴリズムのテスト ケースを準備し、comp にそれを行うように教えるだけです。
波形画像を必要とする代わりに、高速フーリエ変換を使用してこれを実行し、2 つの fft を比較できますか?x% の誤差範囲内で y 音節と見なすことができますか?