speech-recognition - CMU の sphinx4 を使用して数字以外のデータを転記する

Question

私は最近、書き起こしに CMU の sphinx4 を使用することに取り組んでおり、最終的に強制的に整列させます。つまり、音声をその書き起こしに合わせます。

基本的に私が開発したいことを実行するAutoCapというプロジェクトを見つけました。ということで、インストールしましたがダメでした。微調整してみましたが、取得したのは間違ったタイムスタンプだけでした。

そこで、sphinx4 を使って自分でやってみようと思いました。Sphinx の Transcriber.jar ファイルを使用して、wav ファイルの書き起こしに成功しました。しかし、数字以外のデータを含むオーディオでは機能しませんでした。readmeページには、「数字以外のデータを転記したい人は、正しい文法、言語モデル、および言語学者を使用して config.xml ファイルを変更する必要があります」と記載されています。

それで、誰でもこれらのいずれかについて私に助けを提供できますか：

オートキャップ
Sphinx4 を使用して数字以外のデータを転記する
強制整列

ありがとう。

score 2 · Accepted Answer

音声とテキストの配置に特化した特定のプロジェクトがあります。これは簡単な作業ではありません。開発は別の sphinx4 ブランチで行われます。ここでいくつかの詳細を見つけることができます

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

このプロジェクトについて質問がある場合は、sphinx4 フォーラムで質問してください。

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

score 0 · Accepted Answer

私は現在、同じ問題、つまり数字以外のデータの転記に取り組んでいます。私はスフィンクス4プログラマーガイドのドキュメントを簡単に調べ、言語モデル、音響モデル、および提案されているJSGF文法を使用しました。しかし、得られた反応は目標に達していませんでした。config.xmlのパラメーターや変更を微調整するだけでは不十分だと私は信じています。より良い音声認識を実行できるスフィンクス4と一緒に使用するには、自家製のアルゴリズムが必要だと思います。私の側から..私はlextreeliguist、JSGFGrammarおよびトリグラム言語モデルを使用しました。しかし、反応は良くありませんでした。おそらく、音声入力が正確にアメリカ英語ではなかったためです。もう少しそれに取り組みます..そしてあなたに私の結果を知らせます

speech-recognition - CMU の sphinx4 を使用して数字以外のデータを転記する

2 に答える 2

Related

Reference