私は最近、書き起こしに CMU の sphinx4 を使用することに取り組んでおり、最終的に強制的に整列させます。つまり、音声をその書き起こしに合わせます。
基本的に私が開発したいことを実行するAutoCapというプロジェクトを見つけました。ということで、インストールしましたがダメでした。微調整してみましたが、取得したのは間違ったタイムスタンプだけでした。
そこで、sphinx4 を使って自分でやってみようと思いました。Sphinx の Transcriber.jar ファイルを使用して、wav ファイルの書き起こしに成功しました。しかし、数字以外のデータを含むオーディオでは機能しませんでした。readmeページには、「数字以外のデータを転記したい人は、正しい文法、言語モデル、および言語学者を使用して config.xml ファイルを変更する必要があります」と記載されています。
それで、誰でもこれらのいずれかについて私に助けを提供できますか:
- オートキャップ
- Sphinx4 を使用して数字以外のデータを転記する
- 強制整列
ありがとう。