軽量の diphone スピーチ シンセサイザーを作成しようとしています。私の母国語には非常に単純な発音とテキスト処理ルールがあるため、すべてが非常に単純に見えます。私が遭遇した唯一の問題は、ピッチコントロールです。
私が理解している限り、音声のピッチを制御するために、ほとんどの音声シンセサイザーは LPC (線形予測コーディング) を使用しています。これは、基本的にピッチ情報を録音された音声サンプルから分離し、合成中に独自のピッチを次のように指定できます。必要です。
問題は、私が DSP の専門家ではないことです。私は Ooura FFT ライブラリを使用して AFR 情報を抽出しました。Hann ウィンドウと Hamming ウィンドウの使用については少し知っていますが (自分で C++ コードを実装しました)、ほとんどの場合、DSP アルゴリズムをブラック ボックスとして扱います。
使用例が含まれた裸の LPC コードであるオープンソース ライブラリを見つけたいと思っていましたが、何も見つかりませんでした。利用可能なコード (フェスティバル エンジンなど) のほとんどは、シンセに緊密に統合されており、それを分離して使用方法を学ぶのはかなり難しい作業です。
「ブラック ボックス」スタイルの LPC アルゴリズムと使用例を備えた C/C++/C#/Java オープン ソース DSP ライブラリはありますか?そのため、PCM サンプル データをそれに投げて、LPC コード化された出力を取得し、コード化されたものを投げることができます。データとデコードされた音声データを合成しますか?