21

2 人の話者の音声を自動的に分離する必要がある 2 人の音声ファイル、録音された電話会話があります。私は音声認識が初めてで、Pythonのウェーブモジュールを見ましたが、有益な情報を見つけることができませんでした.

始め方を教えてください。また、問題の解決に役立つ無料の Python ライブラリを提案してください。

4

4 に答える 4

16

話者を分離するタスクは、音声認識タスクではなく、話者認識タスクです。スピーチ コミュニティでは、このタスクは話者ダイアライゼーションとも呼ばれます。Python で使用できる話者ダイアライゼーションと話者認識用のパッケージがいくつかあります。

LIUMのサイドキット

Idiap の Bob ツールキット

ISCI からの話者ダイアライゼーション

Python に限定されていない場合は、他にもあります。

LIUM 話者ダイアライゼーション

Kaldi での話者認識の設定。x-vector と呼ばれる最先端の DNN ベースの i-vector が含まれています。

于 2013-06-14T18:24:35.973 に答える
4

numpy から始めて、オーディオ録音のさまざまな声を区別するための優れた方法として、spectrpgraphs (基本的にローリング FFT) を検討します。

Matplotlibのスペクトログラム関数は次のとおりです。

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

Windows プラットフォームを使い始めたばかりの場合は、Python(x,y)をお勧めします。

于 2011-09-05T14:15:17.700 に答える
2

sciKits Talkbox をチェックしてください: http://projects.scipy.org/scikits/wiki/Talkbox

残念ながら、チュートリアルは非常に制限されています: http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html

于 2013-06-14T16:20:36.480 に答える
0

CMU Sphinx Python ライブラリを見てください。Java で開発されているので、Python ライブラリはそのための単なるラッパーだと思います。このプロジェクトの背後には、進行中の多くの研究があります。

公式ウィキ: http://cmusphinx.sourceforge.net/wiki/

Linux のクイックスタート チュートリアル: http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python

于 2011-09-05T16:08:58.543 に答える