11

オープンソース、またはJava用の比較的安価な音声認識APIの経験がある人はいますか? 話し言葉をテキストに変換するものを探しています。

Sun の Java 音声認識ページから、それはかなり死んでいるようです。私の要件は、少なくとも Linux で動作するものです。

誰でも何かをお勧めできますか?純粋な Java はおまけですが、それ以外の場合は Linux ベースのソリューションを検討できます。そして、これは家のプロジェクトなので... 安いほど良い.

  • 編集

CMU Sphinx Amit が指摘したように、CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php 私の問題は大量の単語エラー率です。トレーニングはそれ自体がプロジェクトのように思えますが、今週末にそれを試すために力を集めたいと思っています.

IBM ViaVoice
2004 年、Via Voice がオープン ソースになるというニュースが飛び交っています。ニュースリリースは時期尚早であり、それは決して起こらなかったようです. VIA Voice はある時点でLinux 用にリリースされましたが、停止したようです。IBM の Web サイトに残っているように見えるのは、埋め込みの ViaVoice だけです。

IBM Websphere Voice
これが、ViaVoice (デスクトップ) が廃止されたように見える理由だと思います。IBM は、腕と脚よりも多くの費用がかかるこの商用ソリューションを作成しました。そして、それを使用するだけで、少なくとも websphere とその IDE での私の経験の後、あなたが残したものが必要になります。

ニュアンス
彼らはまだ Linux 向けの製品を作っているようです。しかし、彼らは道に迷い、IBM に続いてサーバー市場に参入したと思います。私はこれについて確信が持てません.彼らのウェブサイトは有用な情報を見つけるのにそれほど親切ではありません.

Open Mind / Free Speech
これらの人たちは、プロジェクト名を変え続けています。おそらく、お金に飢えた会社が彼らを脅迫し続けているのでしょうが、私にはわかりません。プロジェクトは少し死んでいるように見えます。

今週末、Sphinx をトレーニングして、友だちになりたいかどうかを確認してみます。それ以外の場合は、Microsoft の音声ソリューションの使用を検討します。これまではうまく機能していましたが、優れた Linux ソリューションではありません。おそらくワインを介して使用できますが、2つの別々のサーバーが必要になります...面倒です。

ああ、音声/スピーチSpeechTechMagを訪問するのに適した場所と思われるもの. 彼らは、何らかの形で音声/スピーチに関連する企業のリストを含む「年次参照」を持っています.

4

5 に答える 5

3

予算が限られている場合は、スフィンクスが断然最良のオプションです。ただし、使用するモデル、チューニング方法、オーディオ ソースのチューニング方法によっても大きな違いが生じます。絶対にすべてが一致する必要があります。そうしないと、機能しません。あなたが説明した問題を考えると、モデルが混同され、マイクが正しく調整されていないというかなりの額を喜んで賭けます。また、アクセントがある場合はおそらく機能しません - これはデコーダーの問題ではなく、音響モデルの問題です - あなたの声/アクセントに似た声/アクセントを持つ人がトレーニングデータに含まれていない場合、悪い結果が得られます. .

とはいえ、彼らのオープン ソース モデルのページを見たことがありますか?

http://www.speech.cs.cmu.edu/sphinx/models/

何をしようとしているのかにもよりますが、16kHz WSJ モデルとギガワード LMs NVP を使用して、言論の自由について約 90% の精度を得ることができるはずです。ただし、ASR は大規模な事業であり、まだ商品化されていないことに注意してください。

于 2009-08-26T14:50:30.453 に答える
2

vPass(音声パスワード)はhttp://www.basic-signalprocessing.comからダウンロードできます。

コンポーネントは、Javaおよび.Net言語用に設計されています。認識期間は5秒です。VPassは十分にテストされていますvTextはまだ新しいものではないため、まだパッケージ化されていません。

于 2010-01-10T16:28:39.333 に答える
1

私のグループは、 Sphinxを使用して音声数字を認識する Java のミニ プログラムを完成させました。

于 2010-01-07T07:22:50.983 に答える
1

私は数日前から同じものを探しています。これまでのところ、Sphinx4 と FreeTTS を見つけました。どちらも Java 実装で、Sphinx は FreeTTS とは異なり、かなり頻繁に更新されるようです。私が抱えている唯一の問題は、Sphinx がオフィス環境で私を理解するのに問題があり、倉庫環境のソリューションが必要だということです。

于 2009-03-05T17:01:41.617 に答える