speech-to-text - すべての音声からテキストへのアルゴリズムはリアルタイムで動作しますか?

Question

現在の技術のすべての音声からテキストへのアルゴリズムはリアルタイムで動作しますか? マイクを使ってコンピューターの前に座っている人を意味するのではなく、事前に録音されたオーディオファイルを入力することを意味します。

つまり、30 分の音声録音がある場合、文字起こしには常に 30 分かかりますか?

そこにはさまざまなアプローチがありますか？

score 2 · Accepted Answer

リアルタイムよりも高速に実行されるアルゴリズムを止めるものは何もありません。Naturally Speaking 10 Professional ソフトウェアプログラムは、コンピューターから離れた場所で取得した口述を変換するための「ファイルからの書き起こし」オプションを提供します。これは、実行中のコンピューターと同じ速度で動作します。

バッチ処理の実装はシグナルインテリジェンスの領域に存在すると思いますが、当然のことながら、そのようなプログラムは一般大衆には利用できません。

score 1 · Accepted Answer

音声認識が実行されるオーディオの長さと同じくらい長くかかる必要がある理由はありません。ただし、計算が必要なため、リアルタイムアルゴリズムよりもはるかに高速になるとは思いません。より詳細な情報については、ウィキペディアの記事のこのセクションを参照してください (パフォーマンスの適切な概要は示されていますが、時間は示されていないようです)。

speech-to-text - すべての音声からテキストへのアルゴリズムはリアルタイムで動作しますか?

2 に答える 2

Related

Reference