これは非常に大きな質問です。どうやって始めたらよいかわかりません... では、正しい「条件」を提示して、クエストを絞り込むことができるようにしましょう。
まず、音声認識は多様で複雑なテーマであり、さまざまな用途があることを理解してください。人々は、このドメインを最初に頭に浮かんだものにマッピングする傾向があります (通常、IVR システムのように、あなたが話していることを理解するコンピューターです)。まず、概念を主なカテゴリに分類します。
ヒューマンツーマシン:人間の言っていることを理解することを扱うアプリケーションですが、人間は自分が機械と話していることを知っており、文法は非常に限られています。例は
- コンピューターの自動化
- 専門: たとえば、一部のコントロールを自動化するパイロット (騒音は大きな問題)
- Google-411 のような IVR (Interactive Voice Response) システム、または銀行に電話をかけたときに相手側のコンピューターが「カスタマー サービスを受けるには「サービス」と言ってください」と言ったとき
人対人 (自然発話): これはより大きく、より複雑な問題です。ここでは、さまざまなアプリケーションに分解することもできます。
- コール センター: エージェントと顧客の間の会話、電話品質、圧縮
- インテリジェンス: 2 人以上の個人間のラジオ/電話/生の会話
さて、Speech-To-Text は、あなたが気にかけていると言うべきものではありません。あなたが気にかけているのは、問題を解決することです。さまざまな問題を解決するために、さまざまなテクノロジーが使用されます。それらのいくつかの概要については、こちらをご覧ください。要約すると、他のアプローチは音声転写、LVCSR、および直接ベースです。
また、テクノロジーの背後にいる博士号になることに興味はありますか? 信号処理を含むマスターと同等のものが必要であり、おそらくPHdが最先端である必要があります。その場合、実際の音声エンジンを開発する会社で働くことになります。Nuance や IBM などの企業が大きな企業ですが、Phillips やその他のスタートアップも存在します。
一方、アプリケーションを実装する側になりたい場合は、エンジンではなく、エンジンを使用するアプリケーションの構築に取り組みます。ゲーム業界からの良い例えだと思います: グラフィック エンジン (Cry エンジンなど) を開発していますか、それとも数百のゲームのうちの 1 つに取り組んでいますか? すべて同じグラフィック エンジンを使用していますか?
誤解しないでほしいのですが、世界の IBM/Nuance 以外でも、検索の品質に取り組むべきことはたくさんあります。通常、エンジンは非常にオープンであり、パフォーマンスに劇的な影響を与えるアルゴリズムの微調整が数多く行われます。各ビジネス アプリケーションにはさまざまな制約とコスト/ベネフィット機能があるため、より優れた音声認識ベースのアプリケーションを構築するための実験を何年にもわたって行うことができます。
もう 1 つ: 一般に、スタック内の下位にあるほど、優れた統計情報をバックグラウンドにする必要があります。
現時点では、自動化を可能にするアプリケーションを作成できることに主に関心があります。
よし、ここに収束している... では、「Speech-to-Text」には興味がありません。その流行語は、あなたが行く必要のない場所である完全な転写の世界にあなたを連れて行きます. 音声 XML や IVR システムで使用される技術など、ヒューマン ツー マシン テクノロジーのいくつかに注目する必要があります (Nuance はそこで最大のプレーヤーです)。