私は、個々の話者、彼らのピッチと強さを認識する会話分析ソフトウェアを書くことを計画しています。ピッチと強度はやや単純です(自己相関によるピッチ)。
個々の話者を認識して、その話者の特徴を記録できるようにするにはどうすればよいですか?各スピーカーの周波数のヒューリスティックを保存するだけで十分ですか?一度に話す人は1人だけだと思います(厳密に重複しない)。また、トレーニングでは、実際の分析の前に、各スピーカーが1分に相当するデータを記録できると想定できます。
私は、個々の話者、彼らのピッチと強さを認識する会話分析ソフトウェアを書くことを計画しています。ピッチと強度はやや単純です(自己相関によるピッチ)。
個々の話者を認識して、その話者の特徴を記録できるようにするにはどうすればよいですか?各スピーカーの周波数のヒューリスティックを保存するだけで十分ですか?一度に話す人は1人だけだと思います(厳密に重複しない)。また、トレーニングでは、実際の分析の前に、各スピーカーが1分に相当するデータを記録できると想定できます。
ピッチと強度だけでは何もわかりません。ピッチがどのように変化するかを分析する必要があります。さまざまな話者を識別するには、スピーチ オーディオをある種の に変換しfeature space
、この特徴空間の話者のデータベースと比較する必要があります。Google で検索したい一般的な用語は、prosody
たとえばhttp://en.wikipedia.org/wiki/Prosody_(linguistics)を参照してください。あなたがグーグルしている間、あなたはspeaker identification
akaを読みたいと思うかもしれません.speaker recognition
例えばhttp://en.wikipedia.org/wiki/Speaker_identification
まだこれに取り組んでいる場合... 音声入力で音声認識を使用していますか? たとえば、Microsoft SAPI は、音声の音波を掘り下げるための豊富な API をアプリケーションに提供するため、話者認識の問題をより扱いやすくすることができます。波形内の音素位置を取得できると思います。これにより、たとえば、母音のパワースペクトル分析を行うことができ、話者を区別するための特徴を生成するために使用できます。(誰かがピッチとボリュームについてつぶやき始める前に、フォルマント曲線は声道の形状に由来し、声帯周波数であるピッチとはかなり独立していること、そしてフォルマントの相対的な位置と相対的な振幅は(相対的に! ) 全体の音量とは無関係です。) コンテキスト内の音素の長さも便利な機能かもしれません。'中のエネルギー分布 n の音は「鼻声」機能を提供できます。等々。ちょっとした考え。私は自分自身がこの分野で働くことを期待しています。