6

私は幼い頃から重度から重度の難聴を患っていますが、幸いなことに普通の人のように話すことができます。読唇術をしても音声認識能力が低下しているため、口頭でのコミュニケーションは常に困難でした。ボード、パワーポイントのスライド、本、インターネットを読むだけで、学校や大学を卒業しました。私は現在のソフトウェアエンジニアリングの仕事でかなりうまくやっていますが、最近、状況を改善するためにいくらかの努力をしなければならないと感じています。

字幕は、テレビで映画や番組を理解するためのこの国での私の命の恩人であり、私は過去7年間だけこれを楽しんでいます(私は現在31歳です)。

見知らぬ人も含めて、誰かと話すときはいつでも、実生活で字幕を見ることができる必要性を強く感じています。訓練されていない音声からテキストへのコンバーターを開発したいのですが、最初は正確な単語を綴る必要はなく、音節/音声学の手がかりだけでも問題ありません。

私はしばらくの間これをグーグルで検索しましたが、ほとんどの結果は、テキスト読み上げか、コンピューターに音声コマンドを与えるための音声認識の半ば焼きの試みのいずれかです。このプロジェクトを始める方法について、いくつかの指針を知りたいと思います。具体的には、オーディオファイルの処理方法や、おおよその音声をできるだけ速く取得するためにどのような処理を行う必要があるかなどの手順が必要です。

4

3 に答える 3

3

リアルタイムで音声認識を行うCMUのSphinxプロジェクトをご覧になることをお勧めします。彼らはそれを試すためにいくつかのデモを持っています。

于 2009-12-05T02:47:53.633 に答える