speech-synthesis - 音声合成をどこから始めるか

Question

皆さんは、Google の TTS エンジンに精通しているかもしれません:こちら.

そのようなものが入力を分析し、さまざまな音節/品詞を選択する方法についての基本的な理解がありますが、TTS システムの「声」を作成したい場合、どこから始めればよいでしょうか?

score 0 · Accepted Answer

これは、私が大学で 1 学期近くかけて答えを学び、そのプロセスを理解するために必要な基本的な信号処理を学ぶために 1 年 (またはそれ以上) の授業を事前に行った質問です。クラス全体が音声合成に専念し、カリキュラム全体が信号処理に専念しています。

人間の声道はフィルターであり、声門はインパルス発生器であると考えることができます。つまり、音声は実際には、声道、口、および鼻腔によってフィルタリングされたインパルス列の結果です。

音素ごとに「フィルタ」が異なるため、「フィルタ」を生成する音素のライブラリが必要になります。理論的には、逆フィルタリングを音素サウンドクリップのライブラリで使用して、「フィルタ」係数を見つけることができます。Levinson-Durbin 再帰は、LPC 係数を見つけるためによく使用されます。

声門脈列を作成する必要があります。これを行う簡単な方法は、パルス列を正の半正弦波で畳み込むことです。

最後に、作成したい音素に関連付けられた「フィルター」係数で声門パルス列をフィルター処理します。

ただし、それは有声音声のみです。無声音声を生成するための簡単な解決策は、無声音声の音素に関連付けられた「フィルター」係数でランダムノイズ信号をフィルター処理することです。

その上に抽象化の 1 つのレイヤーがあり、必要な音素のリストを作成し、連結します。パイのように簡単！

アップデート：

友人は、テキストを入力して音声を出力するための「ブラックボックス」である Festival を指摘しました: http://festvox.org/festival/

1 に答える 1