4

私は最近、書き起こしに CMU の sphinx4 を使用することに取り組んでおり、最終的に強制的に整列させます。つまり、音声をその書き起こしに合わせます。

基本的に私が開発したいことを実行するAutoCapというプロジェクトを見つけました。ということで、インストールしましたがダメでした。微調整してみましたが、取得したのは間違ったタイムスタンプだけでした。

そこで、sphinx4 を使って自分でやってみようと思いました。Sphinx の Transcriber.jar ファイルを使用して、wav ファイルの書き起こしに成功しました。しかし、数字以外のデータを含むオーディオでは機能しませんでした。readmeページには、「数字以外のデータを転記したい人は、正しい文法、言語モデル、および言語学者を使用して config.xml ファイルを変更する必要があります」と記載されています

それで、誰でもこれらのいずれかについて私に助けを提供できますか:

  • オートキャップ
  • Sphinx4 を使用して数字以外のデータを転記する
  • 強制整列

ありがとう。

4

2 に答える 2

2

音声とテキストの配置に特化した特定のプロジェクトがあります。これは簡単な作業ではありません。開発は別の sphinx4 ブランチで行われます。ここでいくつかの詳細を見つけることができます

http://cmusphinx.sourceforge.net/?s=long+audio+alignment

このプロジェクトについて質問がある場合は、sphinx4 フォーラムで質問してください。

http://sourceforge.net/projects/cmusphinx/forums/forum/382337

于 2011-08-13T14:37:48.660 に答える
0

私は現在、同じ問題、つまり数字以外のデータの転記に取り組んでいます。私はスフィンクス4プログラマーガイドのドキュメントを簡単に調べ、言語モデル、音響モデル、および提案されているJSGF文法を使用しました。しかし、得られた反応は目標に達していませんでした。config.xmlのパラメーターや変更を微調整するだけでは不十分だと私は信じています。より良い音声認識を実行できるスフィンクス4と一緒に使用するには、自家製のアルゴリズムが必要だと思います。私の側から..私はlextreeliguist、JSGFGrammarおよびトリグラム言語モデルを使用しました。しかし、反応は良くありませんでした。おそらく、音声入力が正確にアメリカ英語ではなかったためです。もう少しそれに取り組みます..そしてあなたに私の結果を知らせます

于 2011-09-03T09:16:38.540 に答える