5

Linux で音声をテキストに変換するアプリケーションを開始する予定です。拡張できる既存のインターフェースはありますか? または Linux にそのような既存のアプリケーションはありますか? これに関する何か入力はありますか?

編集: 私が作成しようとしているアプリケーションは、はい/いいえだけでなく、話すすべての単語をテキストに変換できる必要があります。

4

4 に答える 4

8

さて、これはかなりの作業であり、使用したいテクノロジーについては言及しませんが、いくつかのリンクを次に示します。

幸運を。詳細をお知らせいただければ、より適切な回答を提供できる可能性があります。たとえば、「はい/いいえ」のコール センター スタイルの認識と、部分的な自然言語理解でさえ、大きな違いがあります。

于 2009-01-18T04:44:11.457 に答える
3

デイブの提案は素晴らしいスタートです。スフィンクスはとても気の利いたものです。

可能な限り確率的にする必要があることを付け加えたいだけです。かつては言語学者であり、以前はかつての音韻論マニアでもあった私は、言語モデルにとらわれないように自信を持って言えます。「言語学者を解雇するたびに、私の精度は上がる」という誤解を忘れないようにしましょう。MIT のリベラル アーツ メジャーが言うべきことではなく、ノイズと変動を説明するモデルとその機能についてです。

Jurafsky と Martin の "Speech and Language Processing" は、手に入れるのに適した本です。タスクの計算モデルの非常に便利なアプリケーションがいくつかあります。Harvey Sussman の、さまざまな母音 (メンフクロウから始まり、人間に向かって進んでいる) の F2 勾配の線形相関に関する研究は、最近のモデルに実装するのに適しているようです。

于 2009-01-18T06:53:39.557 に答える
3

Juliusは Linux にも適しています

于 2009-11-03T05:12:56.357 に答える
1

Sphinx は、Linux での最善の策です。Sphinx II と Sphinx III を試しました。それぞれで使用できるオープンソースの言語モデルと音響モデルがいくつかあります。製品レベルのパフォーマンスではありませんが、プロトタイピングやデモには十分です。本番環境では、独自の言語および音響モデルを開発する必要があります。

于 2009-01-26T06:02:01.683 に答える