audio - オートチューン/ボコーダーの背後にある理論

Question

ボコーダーやオートチューンに関する資料を求めて Web 中を探し回っていますが、満足のいく答えは得られませんでした。簡単な方法で、キャリアサウンドファイルを使用して特定のサウンドファイルを自動調整する方法を説明してもらえますか? (私はffts、ウィンドウ処理、オーバーラップなどに精通していますが、キャリアのfftsと変調する必要がある元のサウンドファイルがあるときに何をすべきかわかりません)

編集: もう少し調べた後、最終的に探していたものを正確に知ることができました - チャンネルボコーダーです。それが機能する方法は、2 つの入力、1 つは音声信号、もう 1 つは周波数が豊富な音楽信号です。音楽信号は音声信号のエンベロープによって変調され、出力信号は楽音で歌っている声のように聞こえます。

ご協力いただきありがとうございます！

score 3 · Accepted Answer

フェーズボコーダーを使用してピッチを調整することは、基本的にピッチ推定と周波数領域での補間です。

フェーズボコーダ再構成法は、潜在的に、新しいFFTビン間隔で周波数スペクトルをリサンプリングして、すべての周波数をある比率で上下にシフトする場合があります。フェーズボコーダーアルゴリズムは、隣接するFFTフレーム間で共有される情報を追加で使用して、この補間結果がフレーム境界を越えて連続波形を作成できるようにします。たとえば、補間結果の位相を調整して、フレーム間に中断や不連続性、位相のキャンセルが発生するのではなく、連続する正弦波の再構成が連続するようにします。

スペクトルを上下にシフトする量は、ピッチ推定と、ソースの推定ピッチとターゲットピッチの推定ピッチの比率を計算することによって決定されます。この場合も、フェーズボコーダーはFFTフレーム間の位相差に関する情報を使用して、ピッチをより正確に推定します。これは、単一のローカルFFTフレームから利用できるよりも少し多くのグローバル情報を使用することで可能になります。

もちろん、この周波数と位相の変化は、過渡的な詳細を塗りつぶし、他のさまざまな歪みを引き起こす可能性があるため、実際のフェーズボコーダー製品は、これらの問題のいくつかを修正するために、あらゆる種類のカスタム（多くの場合独自仕様）の特殊なケースのトリックを追加で実行する場合があります。

score 3 · Accepted Answer

最初のステップはピッチ検出です。ウィキペディアで簡単に紹介されているピッチ検出アルゴリズムは多数あります: http://en.wikipedia.org/wiki/Pitch_detection_algorithm ピッチ検出は、周波数ドメインまたは時間ドメインのいずれかで実装できます。両方のドメインに、さまざまなプロパティ (レイテンシ、品質など) を持つさまざまな手法が存在します。F ドメインでは、時間/周波数のトレードオフのために単純なアプローチが非常に制限的であることを認識することが重要です。この制限を回避することはできますが、作業が必要です。

ピッチを特定したら、それを目的のピッチと比較し、実際にピッチシフトするために必要な量を決定します。

最後のステップはピッチシフトです。これは、ピッチ検出と同様に、T または F ドメインで実行できます。他の人が言及した「位相ボコーダー」方式は、F ドメイン方式です。T ドメインの方法には、(品質の高い順に) OLA、SOLA、および PSOLA が含まれます。これらの一部については、 http ://www.scribd.com/doc/67053489/60/Synchronous-Overlap-and-Add- で読むことができます。ソラ

score 1 · Accepted Answer

基本的にはFFTを実行し、次に周波数領域で信号を最も近い完全な半音ピッチに移動します。

audio - オートチューン/ボコーダーの背後にある理論

3 に答える 3

Related

Reference