2 つの音声オーディオ ファイルがあります。それぞれが電話での会話から録音され、長さが異なります (最初のファイルは 3 秒ですが、2 番目のファイルは 5 秒です)。2 つのファイルの類似性を測定したいと考えています。音声信号のテキスト コンテンツには関心がないことに注意してください (つまり、Speech to Text はありません)。類似性を測定して、スコアまたはパーセンテージを取得するだけです。
オーディオ指紋分析を行うツールはほとんど見つかりませんでしたが、ほとんどすべてが音楽オーディオファイルを対象としており、スピーチ時にうまく機能しないことがわかりました.