ここに状況があります。いくつかのサウンドを含む 2 つの短いオーディオ ファイルがあるとします。最初のファイルには音声「こんにちは」(音声 1) があり、2 番目のファイルには誰かが話した「さようなら」(音声 2) があるとします。同じ人が話している「こんにちは」(オーディオ 3) を含む別のオーディオ ファイルがありますが、別の録音です。
オーディオ 3 がオーディオ 1 に似ていることを (スピーカーに関係なく) 検出するにはどうすればよいですか? 私はここで音声だけでなく音を扱っています。そのため、言葉の代わりに口笛の音を入れることもできます。