私のプロジェクトでは、LIUM_SpkDiarization-4.7.jar というライブラリを使用していますが、どのように機能するのかよくわかりません。誰か、ちょっと説明してくれませんか?
また、私はpythonでそれを使用しています。
ライブラリへのリンクは次のとおりです: https://voiceid.googlecode.com/svn-history/r11/trunk/scripts/LIUM_SpkDiarization-4.7.jar
前もって感謝します。
このツールは知りませんでした。それは本当にクールに見えます。彼らのウィキをチェックしましたか?システムの仕組みに関するいくつかの論文があります: http://lium3.univ-lemans.fr/diarization/doku.php
基本的に、MFCC メル周波数ケプストラム係数 (標準的な手法) を計算します。これが基本的なステップです。操作する特徴空間を生成します。これは、時間内のスライディング ウィンドウで FFT を計算することに似ています。最終的に、クラスタリングは、ベイジアン情報量基準 (BIC) メソッドを使用して、これらのタイム スライスされたフィーチャに対して実行されます。最初に時間ベースの特徴空間をセグメント化し、次にクラスター化し、各話者の一貫した特徴を見つけます。HMM、ビタビ、EM、場合によっては GMM も使用できます。
私はアルゴリズムを詳細に説明するのに十分なほどよく知りませんが、これも役立つはずです: http://lium3.univ-lemans.fr/diarization/doku.php/overview