Linux で音声をテキストに変換するアプリケーションを開始する予定です。拡張できる既存のインターフェースはありますか? または Linux にそのような既存のアプリケーションはありますか? これに関する何か入力はありますか?
編集: 私が作成しようとしているアプリケーションは、はい/いいえだけでなく、話すすべての単語をテキストに変換できる必要があります。
Linux で音声をテキストに変換するアプリケーションを開始する予定です。拡張できる既存のインターフェースはありますか? または Linux にそのような既存のアプリケーションはありますか? これに関する何か入力はありますか?
編集: 私が作成しようとしているアプリケーションは、はい/いいえだけでなく、話すすべての単語をテキストに変換できる必要があります。
さて、これはかなりの作業であり、使用したいテクノロジーについては言及しませんが、いくつかのリンクを次に示します。
幸運を。詳細をお知らせいただければ、より適切な回答を提供できる可能性があります。たとえば、「はい/いいえ」のコール センター スタイルの認識と、部分的な自然言語理解でさえ、大きな違いがあります。
デイブの提案は素晴らしいスタートです。スフィンクスはとても気の利いたものです。
可能な限り確率的にする必要があることを付け加えたいだけです。かつては言語学者であり、以前はかつての音韻論マニアでもあった私は、言語モデルにとらわれないように自信を持って言えます。「言語学者を解雇するたびに、私の精度は上がる」という誤解を忘れないようにしましょう。MIT のリベラル アーツ メジャーが言うべきことではなく、ノイズと変動を説明するモデルとその機能についてです。
Jurafsky と Martin の "Speech and Language Processing" は、手に入れるのに適した本です。タスクの計算モデルの非常に便利なアプリケーションがいくつかあります。Harvey Sussman の、さまざまな母音 (メンフクロウから始まり、人間に向かって進んでいる) の F2 勾配の線形相関に関する研究は、最近のモデルに実装するのに適しているようです。
Juliusは Linux にも適しています
Sphinx は、Linux での最善の策です。Sphinx II と Sphinx III を試しました。それぞれで使用できるオープンソースの言語モデルと音響モデルがいくつかあります。製品レベルのパフォーマンスではありませんが、プロトタイピングやデモには十分です。本番環境では、独自の言語および音響モデルを開発する必要があります。