1

私は音声処理が初めてです。ですから、私の無知をお許しください。短い音声信号 (10 秒) が与えられ、MATLAB または Wavesufer ソフトウェアを使用して手動でピッチに注釈を付けるように求められました。音声信号のピッチを見つけるにはどうすればよいでしょうか。問題を解決するための理論的なリソースはありますか? Wavesurfer を使って信号のピッチコンターをプロットしてみました。

編集 1: 私の仕事では、データにさまざまなピッチ検出アルゴリズムを適用し、それらの精度を比較しています。したがって、手動で注釈を付けたピッチが参照として機能します。

更新 1: EGG (dEGG) 信号を微分して GCI (Glottal Closure Instants) を取得しました。dEGG のピークは GCI です。2 つの連続する GCI 間の時間間隔は、ピッチ周期 (秒) です。ピッチ周期の逆数はピッチ (hz) です。

更新 2 : SIGMA は、自動 GCI 検出の有名なアルゴリズムです。

みんな、ありがとう。

4

1 に答える 1

1

通常、グラウンド トゥルースは、EGG 記録に伴う信号で得られます。EGG とはElectrogastrogramの頭文字をとったもので、真の音程を記録する特殊な装置です。

あなたがそのようなデバイスにアクセスできるとは思えないので、そのタスクのために慎重に準備されたピッチ抽出評価用の既存のデータベースを使用することをお勧めします。ここからダウンロードできます。このデータは、エディンバラ大学で Paul Bagshaw によって収集されました。

彼の論文も読むことをお勧めします。

最先端のピッチ抽出アルゴリズムと比較したい場合は、https://github.com/google/REAPERを確認してください。また、「真の」ピッチは、後続のアルゴリズムにとって最適な機能ではない可能性があることに注意してください。間違ったピッチを抽出しても、音声認識などの精度が向上する場合があります。詳細については、この出版物を確認してください。

于 2016-09-06T11:55:19.680 に答える