私は、既知のデータセットを照合する方法を探しています。たとえば、MP3 ファイルまたは wav ファイルのリストで、それぞれが誰かが話しているサンプルです。この時点で、私はファイル ABC が人物 X が話していることを知っています。
次に、別のサンプルを取得し、既知のデータ セットが与えられた場合に、この声が誰の可能性が最も高いかを示すために、いくつかの音声マッチングを行います。
また、一致するものを見つけることができる限り、その人が何を言ったかは必ずしも気にしません。つまり、転記などは必要ありません。
CMU Sphinx が音声認識を行わず、主に音声からテキストへの変換に使用されることは承知していますが、他のシステムも見たことがあります。たとえば、LIUM Speaker Diarization (http://cmusphinx.sourceforge.net/wiki/ Speakerdiarization) または VoiceID プロジェクト (https://code.google.com/p/voiceid/) は、CMU をこの種の作業のベースとして使用します。
CMU を使用する場合、どのようにボイス マッチングを行うことができますか?
また、CMU Sphinx が最適なフレームワークではない場合、オープン ソースの代替フレームワークはありますか?