java - 英語版の voxforge モデルを使用したテキストへの音声変換に CMU Sphinx 4 を使用する方法

Question

英語の voxforge モデルで sphinx4 または pocketphinx を使用する方法を理解しようとしていますが、うまくいきません。ドキュメントページ (このようなhttp://cmusphinx.sourceforge.net/sphinx4/doc/UsingSphinxTrainModels.htmlなど)を読み込もうとしましたが、役に立ちません。

私が欲しいのは、使用するモデルとソースとして使用するオーディオファイルを指定し、実行可能ファイルを印刷して、録音の声が何を言っているのかを推測できる実行可能ファイルです。

私はいくつかの運が良かった: pocketphinx_continuous -infile recording.wav 2> /dev/null

しかし、完全な音声ファイルが書き起こされる前に中止され、デフォルトのモデルでは、音声から読み取り可能なテキストを作成するための単語がほとんどありません。

私は sphinx4 ソースパッケージのデモをコンパイルしてテストしましたが、すべての例は単語が少ないようで、私にとって役立つには voxforge のようなモデルが必要です。

どうすればこれを設定できますか?

score 10 · Accepted Answer

Voxforge アコースティックモデルのプラグインは非常に簡単です。API をカバーするメインドキュメントは cmusphinx チュートリアルです。

http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4

始める前に一読することをお勧めします。また、Voxforge よりも正確な En_US English Generic 音響モデルを使用することをお勧めします。

段階的に次のことを行う必要があります。

sourceforge からvoxforge モデルをダウンロードし、フォルダーに展開します。
githubから sphinx4 をチェックアウトし、gradleでビルドします
TranscriberDemo を実行する
sphinx4-samples/src/main/java/edu/cmu/sphinx/demo/transcriber フォルダーに移動し、Transcriberデモを開き、音響モデルパスを以下のように編集します。
別のオーディオファイルが必要な場合は、ソース内のオーディオファイルの場所を編集します。
デモをもう一度実行してお楽しみください

それだろう

   // Load model from the folder in your project
   configuration.setAcousticModelPath("file:voxforge-en-0.4/model_parameters/voxforge_en_sphinx.cd_cont_5000");

java - 英語版の voxforge モデルを使用したテキストへの音声変換に CMU Sphinx 4 を使用する方法

1 に答える 1

Related

Reference