曲のボーカルがどこから始まるかを検出するための最良の方法は何でしょうか?ボーカルの開始時間が必要です。極端な精度は必要ありません。スピードがより重要です。
論文やアルゴリズム(存在する場合)の手がかりは大歓迎です。また、これに最適なフレームワーク/言語に関する推奨事項を探しています。
曲のボーカルがどこから始まるかを検出するための最良の方法は何でしょうか?ボーカルの開始時間が必要です。極端な精度は必要ありません。スピードがより重要です。
論文やアルゴリズム(存在する場合)の手がかりは大歓迎です。また、これに最適なフレームワーク/言語に関する推奨事項を探しています。
*ネタバレ:答えは下にありません*
私はこれに似たようなことをするつもりなので、このテーマについて自分で少し調べてみたところ、それができるかもしれない正確な数値手法がいくつかあることがわかりました。
参考文献をリストし、読者がそれが正しい方法であるかどうかを判断できるようにします。それはすべて音声の音声特徴抽出と関係があり、音声データに音声の特徴が含まれていることを見つけることができます。
ここから始めることはできますが、実際にはどこにもつながりませんが、あなたが何に興味を持っているかを確認するのに役立つ可能性があります:)
http://en.wikipedia.org/wiki/Voice_activity_detection
次に、話者認識に関するいくつかの記事:
mel frequency cepstral coefficients
ここに、 (MFCC)特徴抽出について知っておく必要のある入門書があります。
http://www.speaker-recognition.org/navAlg.html
次に、たとえば、これは次のとおりです。
http://www.iccce.co.in/Papers/ICCCECE358.pdf
どれもあなたの問題の解決に直接つながるものではないことを私は知っていますが、少なくともあなたはあなたが扱うモンスターのサイズを把握することができるでしょう。
編集:フレームワーク
私はそれに関連するものにc#を使用し、最初はroll-my-own fftアルゴリズムを使用し、次にIntel数学ライブラリを使用するILNumericsライブラリに移動し、後ですべてをfftwに置き換えました。
http://ilnumerics.net/(うーん、一度は無料だった)
http://software.intel.com/en-us/articles/intel-mkl/ Intel Math Kernel
http://www.fftw.org/(単純なWebページですが、残酷なパフォーマンス)
編集:新しいfftエンジン
私は自分のコードの一部をAndroidに移植していたので、不可能だと思われることをした男性と素晴らしい仕事をしました。FFTW:FFTSよりもさらに高速なFFTライブラリです。彼の魔法についての私の理解は限られていますが、彼はさまざまなプロセッサアーキテクチャにコードレットを使用しており、存在するすべてのライブラリよりも優れています。
信号強度を調べても、ポップ ミュージックには役に立ちません。これは、現代のポップ ミュージックが高度に圧縮されているためです。つまり、オーディオ レベル コンプレッサは、制作プロセスの複数の段階で適用され、曲をより大きく見せることができます。詳細については、「ラウドネス戦争」という用語を参照してください。たとえば、ケイティ・ペリーの「花火」という曲を参照してください。音量レベルは曲全体でほぼ一定です。