現在の技術のすべての音声からテキストへのアルゴリズムはリアルタイムで動作しますか? マイクを使ってコンピューターの前に座っている人を意味するのではなく、事前に録音されたオーディオ ファイルを入力することを意味します。
つまり、30 分の音声録音がある場合、文字起こしには常に 30 分かかりますか?
そこにはさまざまなアプローチがありますか?
現在の技術のすべての音声からテキストへのアルゴリズムはリアルタイムで動作しますか? マイクを使ってコンピューターの前に座っている人を意味するのではなく、事前に録音されたオーディオ ファイルを入力することを意味します。
つまり、30 分の音声録音がある場合、文字起こしには常に 30 分かかりますか?
そこにはさまざまなアプローチがありますか?
リアルタイムよりも高速に実行されるアルゴリズムを止めるものは何もありません。Naturally Speaking 10 Professional ソフトウェア プログラムは、コンピューターから離れた場所で取得した口述を変換するための「ファイルからの書き起こし」オプションを提供します。これは、実行中のコンピューターと同じ速度で動作します。
バッチ処理の実装はシグナル インテリジェンスの領域に存在すると思いますが、当然のことながら、そのようなプログラムは一般大衆には利用できません。
音声認識が実行されるオーディオの長さと同じくらい長くかかる必要がある理由はありません。ただし、計算が必要なため、リアルタイムアルゴリズムよりもはるかに高速になるとは思いません。より詳細な情報については、ウィキペディアの記事のこのセクションを参照してください (パフォーマンスの適切な概要は示されていますが、時間は示されていないようです)。