6

軽量の diphone スピーチ シンセサイザーを作成しようとしています。私の母国語には非常に単純な発音とテキスト処理ルールがあるため、すべてが非常に単純に見えます。私が遭遇した唯一の問題は、ピッチコントロールです。

私が理解している限り、音声のピッチを制御するために、ほとんどの音声シンセサイザーは LPC (線形予測コーディング) を使用しています。これは、基本的にピッチ情報を録音された音声サンプルから分離し、合成中に独自のピッチを次のように指定できます。必要です。

問題は、私が DSP の専門家ではないことです。私は Ooura FFT ライブラリを使用して AFR 情報を抽出しました。Hann ウィンドウと Hamming ウィンドウの使用については少し知っていますが (自分で C++ コードを実装しました)、ほとんどの場合、DSP アルゴリズムをブラック ボックスとして扱います。

使用例が含まれた裸の LPC コードであるオープンソース ライブラリを見つけたいと思っていましたが、何も見つかりませんでした。利用可能なコード (フェスティバル エンジンなど) のほとんどは、シンセに緊密に統合されており、それを分離して使用方法を学ぶのはかなり難しい作業です。

「ブラック ボックス」スタイルの LPC アルゴリズムと使用例を備えた C/C++/C#/Java オープン ソース DSP ライブラリはありますか?そのため、PCM サンプル データをそれに投げて、LPC コード化された出力を取得し、コード化されたものを投げることができます。データとデコードされた音声データを合成しますか?

4

1 に答える 1

4

それはまさにあなたが探しているものではありませんが、この非常に洗練されたツールボックスからいくつかのアイデアが得られるかもしれません: Praat

于 2012-08-20T14:47:14.750 に答える