音声認識とテキストから音声への変換を行うためのさまざまな手法について知りたいです。また、リンク、チュートリアル、電子ブックなどのリソースについてもお知らせください。
それを達成するための最も効率的な手法はどれですか?
音声認識とテキストから音声への変換を行うためのさまざまな手法について知りたいです。また、リンク、チュートリアル、電子ブックなどのリソースについてもお知らせください。
それを達成するための最も効率的な手法はどれですか?
私は音声認識についての部分に答えるつもりです(私はテキスト読み上げについてあまり知らないので):
この本「音声認識の統計的方法」は、その分野の創設者であるフレデリック・ジェリネックによって書かれた、統計的音声認識の数学的基礎を説明する古典です。
知っておく必要のある最も重要な概念は、隠れマルコフモデルです。人々は何十年もの間、音声認識でそれらを使用してきました。最近のアプローチでは、条件付き確率場を使用しています。ペーパー(PDF)および関連するソフトウェアツールキットSCARFを参照してください。
独自の音声認識機能を作成するのはかなり困難です。ASRU、Interspeech、ICASSPなどのいくつかの科学会議がある活発な研究分野です。
複数のスフィンクスがあります。主なアクティブなものはpocketsphinxとsphinx4です。
Sphinx4はJavaで書かれています。デスクトップおよびWebアプリケーションに適しています。
PocketsphinxはCで書かれています。組み込みデバイスに適しています。それを使用するiphone/androidアプリがあります。
あなたがpocketsphinxが欲しいように聞こえます。このチュートリアルを試してみてください: http ://www.speech.cs.cmu.edu/sphinx/tutorial.html
Pocketsphinx / sphinx4の質問をするのに適した場所は、CMUのsourceforgeフォーラムです。
また、作成しようとしているものなど、より多くの情報を提供する必要があります。
本に関しては、音声認識の聖書は「口頭言語処理」です。
実際のコードをお探しの場合は、CMUのオープンソース音声認識プロジェクトであるSphinxをご覧ください。これはC++で書かれていませんが、アルゴリズムに興味がある場合は、そこから学ぶことができる多くのことを実装しています。(@dehmannのポイントもエコーしたいと思います:隠れマルコフモデルを読んでください。)
あなたがMSについて言及したので-
Microsoft Speechサイトを参照してください。TTS や音声認識など、音声を処理するための多くのリソースが含まれています。
高度な音声認識をどうするか興味がある場合は、以下をお読みください: Randy Allen Harris による Voice Interaction Design
Voice をいつ使用するか、アプリケーションでどのように使用するかについて、いくつかの優れたアドバイスを提供します。