language-agnostic - 音声からテキストへの使用を開始するには?

Question

音声からテキストへのアルゴリズムに非常に興味がありますが、どこから勉強を始めればよいかわかりません。たくさんの検索を行った結果、これにたどり着きましたが、それは 1996 年のものであり、それ以来改善されていることはかなり確信しています。

この種のものを経験したことがある人は、読む/ソースコードを調べるための推奨事項はありますか? または、音声認識プログラムを作成する世界に入りたい場合に何を学ぼうとしているのかについての一般的なアドバイスです (ドメインについてあまり知識がないと、何を検索すればよいかを理解するのが難しい場合があります)。

編集：クロスプラットフォームで何かをしたいのですが、今のところLinuxをターゲットにしています。

編集 2: csmba のよく考えられた返信に感謝します。現時点では、自動化や音声によるさまざまなコマンドの実行を可能にするアプリケーションを作成できるようになることに主に関心があります。したがって、限られた量の認識可能なコマンドをつなぎ合わせることができます。たとえば、「Squarepusher の Hello Everything のアルバムを再生して」などのコマンドを受け取る音楽プレーヤーや、ユーザーが特定のアプリを起動するための音声ショートカットを作成できるアプリケーションランチャーなどです。

これは非常に大きな問題であり、認識エンジン全体の実装に取り組むために現在必要とされるレベルの知識はどこにもないことを認識しています。自分でやる。おそらく、私はこのテーマに関する本を 1 冊か 2 冊手に取り、自由な時間に「単純な」実装について勉強したり遊んだりすることになるでしょう。

score 8 · Accepted Answer

これは非常に大きな質問です。どうやって始めたらよいかわかりません... では、正しい「条件」を提示して、クエストを絞り込むことができるようにしましょう。

まず、音声認識は多様で複雑なテーマであり、さまざまな用途があることを理解してください。人々は、このドメインを最初に頭に浮かんだものにマッピングする傾向があります (通常、IVR システムのように、あなたが話していることを理解するコンピューターです)。まず、概念を主なカテゴリに分類します。

ヒューマンツーマシン:人間の言っていることを理解することを扱うアプリケーションですが、人間は自分が機械と話していることを知っており、文法は非常に限られています。例は

コンピューターの自動化
専門: たとえば、一部のコントロールを自動化するパイロット (騒音は大きな問題)
Google-411 のような IVR (Interactive Voice Response) システム、または銀行に電話をかけたときに相手側のコンピューターが「カスタマーサービスを受けるには「サービス」と言ってください」と言ったとき

人対人 (自然発話): これはより大きく、より複雑な問題です。ここでは、さまざまなアプリケーションに分解することもできます。

コールセンター: エージェントと顧客の間の会話、電話品質、圧縮
インテリジェンス: 2 人以上の個人間のラジオ/電話/生の会話

さて、Speech-To-Text は、あなたが気にかけていると言うべきものではありません。あなたが気にかけているのは、問題を解決することです。さまざまな問題を解決するために、さまざまなテクノロジーが使用されます。それらのいくつかの概要については、こちらをご覧ください。要約すると、他のアプローチは音声転写、LVCSR、および直接ベースです。

また、テクノロジーの背後にいる博士号になることに興味はありますか? 信号処理を含むマスターと同等のものが必要であり、おそらくPHdが最先端である必要があります。その場合、実際の音声エンジンを開発する会社で働くことになります。Nuance や IBM などの企業が大きな企業ですが、Phillips やその他のスタートアップも存在します。

一方、アプリケーションを実装する側になりたい場合は、エンジンではなく、エンジンを使用するアプリケーションの構築に取り組みます。ゲーム業界からの良い例えだと思います: グラフィックエンジン (Cry エンジンなど) を開発していますか、それとも数百のゲームのうちの 1 つに取り組んでいますか? すべて同じグラフィックエンジンを使用していますか?

誤解しないでほしいのですが、世界の IBM/Nuance 以外でも、検索の品質に取り組むべきことはたくさんあります。通常、エンジンは非常にオープンであり、パフォーマンスに劇的な影響を与えるアルゴリズムの微調整が数多く行われます。各ビジネスアプリケーションにはさまざまな制約とコスト/ベネフィット機能があるため、より優れた音声認識ベースのアプリケーションを構築するための実験を何年にもわたって行うことができます。

もう 1 つ: 一般に、スタック内の下位にあるほど、優れた統計情報をバックグラウンドにする必要があります。

現時点では、自動化を可能にするアプリケーションを作成できることに主に関心があります。

よし、ここに収束している... では、「Speech-to-Text」には興味がありません。その流行語は、あなたが行く必要のない場所である完全な転写の世界にあなたを連れて行きます. 音声 XML や IVR システムで使用される技術など、ヒューマンツーマシンテクノロジーのいくつかに注目する必要があります (Nuance はそこで最大のプレーヤーです)。

score 3 · Accepted Answer

あなたがこの分野に不慣れな場合は、1冊か2冊の本を手に入れることをお勧めします. 現場経験がないので、お勧めできません。あなたがまだ大学にいる（またはまだ親密な関係がある）場合は、教授が推薦できるかどうかを確認する必要があります.

あなたがリンクした調査も、おそらく優れたリソースです。1996 年以降、進歩があったことは確かですが、基本が根本的に変わっている可能性は低いです。調査がよく書かれている場合は、時間をかけて読む価値があります。

score 2 · Accepted Answer

OS X については、こちらをご覧ください: OS X Speech Technologies

Windows の場合は、これを確認してください: Microsoft Speech API

score 2 · Accepted Answer

私はIBM の ViaVoice 製品を扱ってきました。優れた ASR (自動音声認識) エンジンと優れたテキスト読み上げエンジンを備えています。

Web サイトはあまり良くありませんが、これは組み込みバージョンへのリンクですhttp://www-01.ibm.com/software/voice/support/

ただし、これはプラットフォームに依存せず、音声用の xml のバリアントである vxml を使用する MVC アーキテクチャを介してすべてが機能します。

score 0 · Accepted Answer

どのプラットフォームをターゲットにしていますか?. Windows の場合に使用できるMicrosoft Speech APIがあります。

score 0 · Accepted Answer

0

Android用の音声認識サービスもあります。

于 2014-11-24T09:47:37.973 に答える

language-agnostic - 音声からテキストへの使用を開始するには?

6 に答える 6

Related

Reference