5

さまざまな人の声を区別/自動検出するアプリケーションに発展させたいというアイデアを思いついたところです。

ユースケースの例:オバマとロムニーのデータを使用してトレーニングした後、アプリケーションはどちらかが再び話すたびに検出できるようになります(トレーニングデータの同じコンテンツは必要ありません)

これに関する既存の研究があるかどうか疑問に思います。(これを検索する方法がわかりません。いくつかのキーワードを試しましたが、有意な結果は得られませんでした。)

そうでない場合、開始するための良い方法は何ですか?機能、データ表現、モデルなどの選択方法。

ありがとう!

4

1 に答える 1

5

ウィキペディアで話者認識を見つけました。これは、テキストに依存しない話者認識の概要:機能からスーパーベクトルまで(Kinnunen、Li、2010)にリンクしています。

論文の要約から:

この論文では、テキストに依存しない認識に重点を置いて、自動話者認識技術の概要を説明します。話者認識は、数十年にわたって活発に研究されてきました。古典的な方法と最先端の方法の両方の概要を説明します。

于 2012-11-06T05:32:00.847 に答える