技術オタクが誰かの声を録音し、彼らのソフトウェアがそれを音素に分解する映画を知っていますか?次に、どのフレーズを入力して、ターゲットがそれを言っているように見せるために使用できますか?
そのソフトウェアはAPIバージョンに存在しますか?グーグルに何をすればいいのかさえわからない。
技術オタクが誰かの声を録音し、彼らのソフトウェアがそれを音素に分解する映画を知っていますか?次に、どのフレーズを入力して、ターゲットがそれを言っているように見せるために使用できますか?
そのソフトウェアはAPIバージョンに存在しますか?グーグルに何をすればいいのかさえわからない。
そのようなソフトウェアはありません。任意の音声をその構成音素に分割することは、部分的に解決された問題にすぎません。音声合成ソフトウェアは、音声合成と同様に、まだ不完全です。
ターゲットの声の音色を再現するのが目的です。オーディオを完全にセグメント化できたとしても、音素を並べ替えると、スプライシングアーティファクトは言うまでもなく、不自然なリズムとイントネーションのオーディオが生成されます。その時点で、スムージング、タイムスケーリング、ピッチ補正に取り掛かっています。これらはすべて、理論的には可能でよく理解されていますが、特に問題のオーディオサンプルが次のように短い場合は、実際のデータではうまく機能しません。単一の音素、さらに音色を保持する必要がある場合。
これらの問題は、アクセントと周囲の音素に基づく音の異音変化によって音声側で悪化します。低品質の音声を忠実に再現するには、ターゲットの言語、アクセント、音声パターンを詳細に理解する必要があります。
さらに、あなたの究極の問題はソーシャルエンジニアリングの問題であり、知っている人の声に関しては、人は簡単にだまされません。入力データのコーパスが大きい場合でも、せいぜい、会話には十分ではない、短い低品質のサンプルを取得できます。
したがって、それは確かに可能ですが、それは困難です。たとえそれが存在したとしても、それは必ずしも十分ではありません。
SRI International(iOS用のSiriを作成した会社)には、EduSpeakというSDKがあります、オーディオ入力を受け取り、それを個々の音素に分解します。約1週間前に製品のデモを見ていたので、これを知っています。デモ中に、プレゼンターはSDKを使用して作成されたアプリケーションを見せてくれました。アプリケーションは、プレゼンターが読むための数行のテキストを提供しました。テキストを読んだ後、アプリケーションは棒グラフを表示しました。各棒は彼のスピーチからの音素を表しています。各バーの高さは、各音素の発音の程度のスコアを表しています(プレゼンターは英語を母国語としないため、特定の音素では他の音素と比較して低いスコアを受け取りました)。プレゼンターは、個々のバーをクリックして、元のオーディオを使用してその個々の音素のみを再生することもできます。
そうです、オーディオを音素で分割するソフトウェアが存在し、それは非常にうまく機能します。さて、それらの音素を音声に再構成できるかどうかは未解決の問題です。SDKの試用版を入手することになった場合は、試してみてお知らせします。
あなたの目的が他人の声を模倣することである場合、別の態度は(音素を組み立てるのではなく)あなた自身の声を変換することです。これは(驚くべきことに)音声変換と呼ばれます。例:http ://www.busim.ee.boun.edu.tr/~speech/projects/Voice_Conversion.htm
この技術は「音声合成」と「音声認識」と呼ばれています
このためのJavaAPIは、ここにあります。Java voice JSAPI
AppleにはこのAppleスピーチ用のAPIがあります
Microsoftにはいくつかあります...1つはここで説明されていますVistaスピーチ
Lyrebirdは、まさにこの問題に取り組んでいる新興企業です。人の声のサンプルといくつかの書かれたテキストが与えられると、サンプル内の人の声でその書かれたテキストの音声バージョンを合成することができます。
フォルマントを意識したピッチシフトで、面白いボイスワーピング効果を得ることができます。AdobeAuditionにはかなり良い実装があります。Antaresは、いくつかの興味深いボーカルエフェクトVSTプラグインを生成します。
これらの手法では、何らかの形式の線形予測符号化(LPC)を使用して、音声をソースフィルターモデルとして扱います。LPCは、声道(フォルマント)の共鳴を推定し、逆フィルターでその効果を反転させ、結果として生じる残差信号をコーディングすることにより、音声信号を処理します。残差信号は、理想的には声門インパルスを表すインパルス列です。これにより、ピッチとフォルマントを個別にスケーリングできるため、単純なピッチシフトよりもはるかに優れた性別変換結果が得られます。
市販のソリューションについてはわかりませんが、その概念は完全に可能性の範囲外ではありません。たとえば、デラウェア大学には、まさにそれを行うためのかなりまともなソフトウェアがあります。