Google の音声テキスト機能 (ボイスメールの Google Voice 自動文字起こし、YouTube の動画の自動キャプションなど) は非常に印象的だと思います。
Google が API を介して利用できるようにしているかどうかを確認しましたが、そうではないようです (私が彼らを責めているわけではありません!)。ただし、音声をテキストに変換する機能を提供するクラウド コンピューティング サービスは非常に優れています。
スピーチからテキストへのアクセスに使用できるある種の「ハック」はありますか。私のアーキテクチャは基本的にこれに帰着します - 入力として短い 15-20 秒の wav/mp3/other クリップ、出力は平文です。
アイデアはありますか?