Sphinxを使って音声認識をしたいです。
JavaまたはPythonを使用してEkigaVOIPソフトフォンの出力/着信オーディオをキャプチャし、それをSphinxに渡すことを検討しています。現在、出力はPulseAudioJACKシンクに向けられています。
私はこれにかなりの初心者なので、正しい用語を使用していない場合は申し訳ありません。
私を正しい方向に向けていただければ幸いです。
達成したいタスクを適切に形式化し、そのための適切なツールを選択する必要があります。ソフトウェア開発者は、プロジェクトにEkigaのようなデスクトップアプリケーションを使用しません。デスクトップアプリケーションがユーザー向けに作成されているからであり、ソフトウェア開発者向けではありません。ソースコードで変更できるのはEkigaのようなデスクトップアプリケーションだけですが、それはまったく別の話です。
VOIPエンドポイントを使用して音声認識サービスに接続する場合は、IVRシステムなどを調べる必要があります。IVRシステムは、VOIPプロトコルを介して複雑な相互作用を実装するための特定のツールです。いくつかの例は次のとおりです。
GNUGatekeeper-プロジェクトはEkigaと同じOpalテクノロジーに基づいて構築されています
freeswitchを設定して、呼び出しを待機し、pcoketsphinxに渡すことができます。アスタリスクでも同じことができます。詳細については、を参照してください。