さまざまな人の声を区別/自動検出するアプリケーションに発展させたいというアイデアを思いついたところです。
ユースケースの例:オバマとロムニーのデータを使用してトレーニングした後、アプリケーションはどちらかが再び話すたびに検出できるようになります(トレーニングデータの同じコンテンツは必要ありません)
これに関する既存の研究があるかどうか疑問に思います。(これを検索する方法がわかりません。いくつかのキーワードを試しましたが、有意な結果は得られませんでした。)
そうでない場合、開始するための良い方法は何ですか?機能、データ表現、モデルなどの選択方法。
ありがとう!