2 人の話者の音声を自動的に分離する必要がある 2 人の音声ファイル、録音された電話会話があります。私は音声認識が初めてで、Pythonのウェーブモジュールを見ましたが、有益な情報を見つけることができませんでした.
始め方を教えてください。また、問題の解決に役立つ無料の Python ライブラリを提案してください。
2 人の話者の音声を自動的に分離する必要がある 2 人の音声ファイル、録音された電話会話があります。私は音声認識が初めてで、Pythonのウェーブモジュールを見ましたが、有益な情報を見つけることができませんでした.
始め方を教えてください。また、問題の解決に役立つ無料の Python ライブラリを提案してください。
話者を分離するタスクは、音声認識タスクではなく、話者認識タスクです。スピーチ コミュニティでは、このタスクは話者ダイアライゼーションとも呼ばれます。Python で使用できる話者ダイアライゼーションと話者認識用のパッケージがいくつかあります。
Python に限定されていない場合は、他にもあります。
Kaldi での話者認識の設定。x-vector と呼ばれる最先端の DNN ベースの i-vector が含まれています。
numpy から始めて、オーディオ録音のさまざまな声を区別するための優れた方法として、spectrpgraphs (基本的にローリング FFT) を検討します。
Matplotlibのスペクトログラム関数は次のとおりです。
http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram
Windows プラットフォームを使い始めたばかりの場合は、Python(x,y)をお勧めします。
sciKits Talkbox をチェックしてください: http://projects.scipy.org/scikits/wiki/Talkbox
残念ながら、チュートリアルは非常に制限されています: http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html
CMU Sphinx Python ライブラリを見てください。Java で開発されているので、Python ライブラリはそのための単なるラッパーだと思います。このプロジェクトの背後には、進行中の多くの研究があります。
公式ウィキ: http://cmusphinx.sourceforge.net/wiki/
Linux のクイックスタート チュートリアル: http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python