24

「オーディオ分析」の分野で、人間の声を検出し(バックグラウンドノイズがあるにもかかわらず)、話者の性別を判断し、おそらくノーと判断するために行われた以前のオープンソース作業はありますか。スピーカーの年齢、スピーカーの感情?

私の推測では、CMU Sphinx のような音声認識ソフトウェアが出発点として適している可能性がありますが、それより優れたものがあるとすれば、それは素晴らしいことです。

4

3 に答える 3

31

私は音声認識の研究をしている大学院生です。これらはオープンリサーチの問題であり、残念ながら、これらのことをすぐに実行できるオープンソースパッケージを私は知りません。

信号処理または機械学習アルゴリズムの実装にある程度のバックグラウンドがある場合は、次の検索用語のいくつかを使用して学術論文を検索してみてください。

  • 性同一性(性別認識と呼ばれることもあります):発話から話者の性別を予測する
  • 年齢の識別:話者の年齢を予測する
  • 話者識別:可能な話者のセットから、発話で最も可能性の高い話者を予測します
  • 話者認証:話者に属するものとして発話を受け入れるか拒否するか(「声紋」タイプの認証システムを想像してください)
  • 話者のダイアリゼーション:複数のファイルを含む音声ファイルを取得し、どの音声セグメントがどの話者に属するかをラベル付けします
  • 感情認識:発話から話者の感情を予測する(非常に新しい研究分野)。

http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#speaker_identificationによると、おそらく世界有数のオープンソース音声認識機能であるCMU Sphinxは、話者識別をサポートしていません(http:// cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#speaker_identification); 上記の他の機能のいずれかを備えているかどうかは疑わしいです。

一部の学術研究者は、コードをオンラインで投稿したり、コードを共有したりする場合があります。Google Scholarを検索すると、Sphinxを使用して修士論文または博士論文を書いた多くの人が見つかります。これは、開始するのに適した場所である可能性があります。

最後に、信号処理について少し知っていれば、音声認識機能自体に触れることなく、非常に大雑把な性別認識アルゴリズムの実装を試みることができます。基本的に、男性と女性の声は基本周波数が異なります-ウィキペディア(http://en.wikipedia.org/wiki/Voice_frequency)によると、男性の声は85〜180Hzで、女性の声は165Hz〜255Hzです。のようなものを使用soxして、発話の周波数スペクトルを決定し(高速フーリエ変換と呼ばれるものを使用)、平均周波数などの要約統計量に応じて音声を「男性」または「女性」に分類できます(http://classicalconvertを参照)。 com / tag / sox /)。これを堅牢に機能させるために(つまり、多くのスピーカー、マイク、または録音環境で)、実行できることがたくさんあります。タスクの性質に依存するため、70%の精度を得るのにどれだけの時間と労力が必要になるかを予測できるかどうかはわかりません。私の感覚では、90%以上は間違いなく非常に難しいでしょう。

幸運を!

于 2011-03-08T00:57:16.297 に答える
3

CMU Sphinx 4 を使用してピッチやパワーなどの低レベルの情報を抽出するのは少し難しい場合があります (古いバージョンには機能があるかもしれませんが)。Praatを使用することをお勧めします。話者の声のピッチ層と各フォルマントを抽出するスクリプトを作成できます。正直なところ、Praat スクリプト言語は恐ろしいものですが、他の方法では長い時間がかかる多くのことをすばやく実行できます。多くの Praat スクリプトもオンラインに投稿されています。http://www.fon.hum.uva.nl/praat/を参照してください。

于 2011-05-06T03:27:13.533 に答える