10

英語の voxforge モデルで sphinx4 または pocketphinx を使用する方法を理解しようとしていますが、うまくいきません。ドキュメント ページ (このようなhttp://cmusphinx.sourceforge.net/sphinx4/doc/UsingSphinxTrainModels.htmlなど)を読み込もうとしましたが、役に立ちません。

私が欲しいのは、使用するモデルとソースとして使用するオーディオ ファイルを指定し、実行可能ファイルを印刷して、録音の声が何を言っているのかを推測できる実行可能ファイルです。

私はいくつかの運が良かった: pocketphinx_continuous -infile recording.wav 2> /dev/null

しかし、完全な音声ファイルが書き起こされる前に中止され、デフォルトのモデルでは、音声から読み取り可能なテキストを作成するための単語がほとんどありません。

私は sphinx4 ソース パッケージのデモをコンパイルしてテストしましたが、すべての例は単語が少ないようで、私にとって役立つには voxforge のようなモデルが必要です。

どうすればこれを設定できますか?

4

1 に答える 1

10

Voxforge アコースティック モデルのプラグインは非常に簡単です。API をカバーするメイン ドキュメントは cmusphinx チュートリアルです。

http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4

始める前に一読することをお勧めします。また、Voxforge よりも正確な En_US English Generic 音響モデルを使用することをお勧めします。

段階的に次のことを行う必要があります。

  • sourceforge からvoxforge モデルをダウンロードし、フォルダーに展開します。
  • githubから sphinx4 をチェックアウトし、gradleでビルドします
  • TranscriberDemo を実行する
  • sphinx4-samples/src/main/java/edu/cmu/sphinx/demo/transcriber フォルダーに移動し、Transcriberデモを開き、音響モデル パスを以下のように編集します。
  • 別のオーディオ ファイルが必要な場合は、ソース内のオーディオ ファイルの場所を編集します。
  • デモをもう一度実行してお楽しみください

それだろう

   // Load model from the folder in your project
   configuration.setAcousticModelPath("file:voxforge-en-0.4/model_parameters/voxforge_en_sphinx.cd_cont_5000");
于 2012-01-02T09:41:33.267 に答える