アプリを作ろうと思っています。
説明は次のとおりです。 1. 人々は以前に録音した会話をサーバーにアップロードします。2. サーバーからのアプリケーションは、その声のピッチ、速度、強調、発音などを検出し、個人のポートフォリオを作成します。3. サーバーに電話をかけると、サーバー アプリケーションはその人の正確な声の調子であなたと話します (その人の音声サーバーはステップ 2 で検出されました)。
このプロジェクトに役立つと思われるリンク、リソース、PDF プレゼンテーションを共有してください.....
主にSTEP 2で立ち往生しています。音声を分解して分析し、速度、ピッチなどの情報を取得する方法が明確にわかりません。音声部分で使用できる既存のAPIはありますか?