c++ - Linux での音声からテキストへの変換

Question

Linux で音声をテキストに変換するアプリケーションを開始する予定です。拡張できる既存のインターフェースはありますか? または Linux にそのような既存のアプリケーションはありますか? これに関する何か入力はありますか？

編集: 私が作成しようとしているアプリケーションは、はい/いいえだけでなく、話すすべての単語をテキストに変換できる必要があります。

score 8 · Accepted Answer

さて、これはかなりの作業であり、使用したいテクノロジーについては言及しませんが、いくつかのリンクを次に示します。

ウィキペディアの音声認識
Java 音声 API
W3C 音声認識文法仕様
Sphinx - Java で書かれたオープンソースの認識エンジン

幸運を。詳細をお知らせいただければ、より適切な回答を提供できる可能性があります。たとえば、「はい/いいえ」のコールセンタースタイルの認識と、部分的な自然言語理解でさえ、大きな違いがあります。

score 3 · Accepted Answer

デイブの提案は素晴らしいスタートです。スフィンクスはとても気の利いたものです。

可能な限り確率的にする必要があることを付け加えたいだけです。かつては言語学者であり、以前はかつての音韻論マニアでもあった私は、言語モデルにとらわれないように自信を持って言えます。「言語学者を解雇するたびに、私の精度は上がる」という誤解を忘れないようにしましょう。MIT のリベラルアーツメジャーが言うべきことではなく、ノイズと変動を説明するモデルとその機能についてです。

Jurafsky と Martin の "Speech and Language Processing" は、手に入れるのに適した本です。タスクの計算モデルの非常に便利なアプリケーションがいくつかあります。Harvey Sussman の、さまざまな母音 (メンフクロウから始まり、人間に向かって進んでいる) の F2 勾配の線形相関に関する研究は、最近のモデルに実装するのに適しているようです。

score 3 · Accepted Answer

3

Juliusは Linux にも適しています

于 2009-11-03T05:12:56.357 に答える

score 1 · Accepted Answer

Sphinx は、Linux での最善の策です。Sphinx II と Sphinx III を試しました。それぞれで使用できるオープンソースの言語モデルと音響モデルがいくつかあります。製品レベルのパフォーマンスではありませんが、プロトタイピングやデモには十分です。本番環境では、独自の言語および音響モデルを開発する必要があります。

c++ - Linux での音声からテキストへの変換

4 に答える 4

Related

Reference