6

私は、既知のデータセットを照合する方法を探しています。たとえば、MP3 ファイルまたは wav ファイルのリストで、それぞれが誰かが話しているサンプルです。この時点で、私はファイル ABC が人物 X が話していることを知っています。

次に、別のサンプルを取得し、既知のデータ セットが与えられた場合に、この声が誰の可能性が最も高いかを示すために、いくつかの音声マッチングを行います。

また、一致するものを見つけることができる限り、その人が何を言ったかは必ずしも気にしません。つまり、転記などは必要ありません。

CMU Sphinx が音声認識を行わず、主に音声からテキストへの変換に使用されることは承知していますが、他のシステムも見たことがあります。たとえば、LIUM Speaker Diarization (http://cmusphinx.sourceforge.net/wiki/ Speakerdiarization) または VoiceID プロジェクト (https://code.google.com/p/voiceid/) は、CMU をこの種の作業のベースとして使用します。

CMU を使用する場合、どのようにボイス マッチングを行うことができますか?

また、CMU Sphinx が最適なフレームワークではない場合、オープン ソースの代替フレームワークはありますか?

4

1 に答える 1

2

これは、博士論文の複雑さに十分な主題です。現在のところ、信頼できる優れたシステムはありません。

あなたが取り組んでいる仕事は非常に複雑なものです。どのようにアプローチするべきかは、状況によって異なります。

  • 人数制限はありますか?幾つか?
  • 一人当たりどれくらいのデータを持っていますか?

認識できる人物が非常に少ない場合は、それらの人物のフォルマントを取得してサンプルと比較するなどの簡単なことを試みることができます。

それ以外の場合は、その問題に取り組んでいる学者に連絡するか、独自の解決策を検討する必要があります。いずれにせよ、私が言ったように、それは難しい問題です。

于 2013-02-11T09:03:07.370 に答える