python - Python 話者認識

Question

2 人の話者の音声を自動的に分離する必要がある 2 人の音声ファイル、録音された電話会話があります。私は音声認識が初めてで、Pythonのウェーブモジュールを見ましたが、有益な情報を見つけることができませんでした.

始め方を教えてください。また、問題の解決に役立つ無料の Python ライブラリを提案してください。

score 16 · Accepted Answer

話者を分離するタスクは、音声認識タスクではなく、話者認識タスクです。スピーチコミュニティでは、このタスクは話者ダイアライゼーションとも呼ばれます。Python で使用できる話者ダイアライゼーションと話者認識用のパッケージがいくつかあります。

Python に限定されていない場合は、他にもあります。

Kaldi での話者認識の設定。x-vector と呼ばれる最先端の DNN ベースの i-vector が含まれています。

score 4 · Accepted Answer

numpy から始めて、オーディオ録音のさまざまな声を区別するための優れた方法として、spectrpgraphs (基本的にローリング FFT) を検討します。

Matplotlibのスペクトログラム関数は次のとおりです。

Windows プラットフォームを使い始めたばかりの場合は、Python(x,y)をお勧めします。

score 2 · Accepted Answer

sciKits Talkbox をチェックしてください: http://projects.scipy.org/scikits/wiki/Talkbox

score 0 · Accepted Answer

CMU Sphinx Python ライブラリを見てください。Java で開発されているので、Python ライブラリはそのための単なるラッパーだと思います。このプロジェクトの背後には、進行中の多くの研究があります。

4 に答える 4