1

私は個人的な研究プロジェクトに取り組んでいます。

私の目的は、音を認識し、その波形をデータベース内の波形と比較して、IPA に属しているかどうかを識別できるようにすることです。Mathematica、SciPy、PyBrain のスキルがあります。

最初のフェーズでは、英語 (米国) の音声アルファベットのみを使用しています。私は、オンラインで見つけた英語の音声アルファベット サウンド ファイルの簡単なテスト バンクを持っています。ここでのトリックは次のとおりです。

サウンド ファイルを、異なる音節に対応する波形に分割したいと考えています。これには、学習アルゴリズムが必要です。したがって、「I like apples」は文を構成する音節の波形に分割されます。

次に、各波形を英語の PA の波形と比較します。この部分のやり方がよくわかりません。Praat を使用して波形を検出し、波形の画像をキャプチャして、データベースに保存されている画像解析と比較することを考えていました (これは楽しいことです)。

ここでの問題は、Praat に波形ファイルを自動的に生成させ、それを音節間で波形チャンクに分割する方法がわからないことです。論理的には、学習アルゴリズムのテスト ケースを準備し、comp にそれを行うように教えるだけです。

波形画像を必要とする代わりに、高速フーリエ変換を使用してこれを実行し、2 つの fft を比較できますか?x% の誤差範囲内で y 音節と見なすことができますか?

4

2 に答える 2

2

率直に言って、Praat についてはよく知りませんが、あなたのプロジェクトはとてもクールで面白いと思います。私は車のモーターの音を使った故障検出の経験があり、あなたのプロジェクトにつながるかもしれません。複数の研究論文で証明されているため、ニューラル ネットワークと SVM を使用して分類を行いました。ですから、自分の選んだ道に何の疑いもありませんでした。したがって、私のアドバイスは、それに関するいくつかの論文を調査して読むことです。このような質問がある場合に非常に役立ちます (うまくいきますか?、代わりに使用できますか、または最適なソリューションを使用していますか?など...)。そして、それは素晴らしいプロジェクトです:)

于 2016-10-30T01:32:28.490 に答える
1

Praat スクリプトを試すことができます。

FFT だけを使用すると、かなりひどい結果が得られます。非常に長い特徴ベクトルで、セグメント化してトレーニングを実行するのが非常に困難です。これは、1 つの音節で数千ポイントに相当します。一部のディープ ニューラル ネットワークはこれに対処できますが、それは適切に設計し、巨大なトレーニング セットを提供することを前提としています。ニューラル ネットワークを使用する利点は、「生データ」から機能を構築できることです (また、fft も「生データ」と見なします)。ただし、サウンドを扱う場合は、それほど必要ではありません。手動で機能を設計できます。音の場合、科学は音がどのような「特徴」を持っているかをよく知っています。

Yaafeなどのライブラリを使用して、これらの機能を計算できます。C++ や Python で行っていない場合でも、確認することをお勧めします。私が提供したリンクには、それらを計算するための式も含まれています。私はキウイ分類器でそれらのいくつかを使用しました。

別の優れたアプローチは、必要なツールを正確に提供するscikit-talkboxから得られます。

于 2016-10-30T07:39:54.820 に答える