speech-recognition - CMU Shinx、JSAPI、Google Speech API を使用した音声認識

Question

音声認識は、私の現在のプロジェクトの多くの機能の 1 つであり、J2EE で開発される可能性が最も高いでしょう (選択が正当化されれば、他の言語も歓迎されます)。

GoogleとSOのリンクのほとんどは、上記の 3 つのオプション、Sphinx 4、JSAPI 直接、および Google Speech API (Google にサーバー呼び出しを行い、結果をテキストとして取得するよりも) を提案しています。

他に自由に利用できるオプションは何ですか? また、Sphinx-4 を使用する場合、一般的な英語を使用するための言語モデルを取得するにはどうすればよいですか?

score 3 · Accepted Answer

はい、あります。

基本的なコード行である Google Speech Recognizer のラッパーを使用することができます。スピーチオーディオを FLAC または SPEEX 形式で送信し、認識と信頼スコアを受け取ります。唯一の問題は、Google が Google 翻訳と同じように API を閉じることができることです。
その他のオプションは、Sphinx (Sphinx4 または Pocketsphinx) を使用することです。
HTK (http://htk.eng.cam.ac.uk/) や HVite (HTK デコーダ) などの Julius (http://julius.sourceforge.jp/en/) を利用することができます。HTK を使用して音響モデルおよび/または言語と文法をトレーニングする他のオプションがあります。

Voxforge には、HTK と Sphinx (http://voxforge.org/) の音響モデルと言語モデルがあります。

score 2 · Accepted Answer

また、Sphinx-4 を使用する場合、一般的な英語を使用するための言語モデルを取得するにはどうすればよいですか?

CMUSphinx の Web サイトやその他の場所からダウンロードできます。自分で構築することもできます。可能な場所の1つは

2 に答える 2