12

音声認識とテキストから音声への変換を行うためのさまざまな手法について知りたいです。また、リンク、チュートリアル、電子ブックなどのリソースについてもお知らせください。

それを達成するための最も効率的な手法はどれですか?

4

6 に答える 6

8

私は音声認識についての部分に答えるつもりです(私はテキスト読み上げについてあまり知らないので):

http://ecx.images-amazon.com/images/I/4190SZC61CL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg

この本「音声認識の統計的方法」は、その分野の創設者であるフレデリック・ジェリネックによって書かれた、統計的音声認識の数学的基礎を説明する古典です。

知っておく必要のある最も重要な概念は、隠れマルコフモデルです。人々は何十年もの間、音声認識でそれらを使用してきました。最近のアプローチでは、条件付き確率場を使用しています。ペーパー(PDF)および関連するソフトウェアツールキットSCARFを参照してください。

独自の音声認識機能を作成するのはかなり困難です。ASRUInterspeechICASSPなどのいくつかの科学会議がある活発な研究分野です。

于 2009-12-23T06:32:02.143 に答える
6

どちらもとても広いエリアです。認識について:このスキーマでは、基本的な自動音声認識システムを構築する方法を説明します。それは決して芸術の始まりに近いわけではありませんが、達成可能なものであり、機能しています. もっと高度なことをしたい場合は、ケプストラム係数と隠れマルコフ モデルについて読んでください。HTKを調べてください。隠れマルコフモデルに広く使用されているツールキットです。

テキスト読み上げについて: Festivalを見てみたいと思います。

于 2009-12-24T03:55:03.493 に答える
4

複数のスフィンクスがあります。主なアクティブなものはpocketsphinxとsphinx4です。

Sphinx4はJavaで書かれています。デスクトップおよびWebアプリケーションに適しています。

PocketsphinxはCで書かれています。組み込みデバイスに適しています。それを使用するiphone/androidアプリがあります。

あなたがpocketsphinxが欲しいように聞こえます。このチュートリアルを試してみてください: http ://www.speech.cs.cmu.edu/sphinx/tutorial.html

Pocketsphinx / sphinx4の質問をするのに適した場所は、CMUのsourceforgeフォーラムです。

また、作成しようとしているものなど、より多くの情報を提供する必要があります。

本に関しては、音声認識の聖書は「口頭言語処理」です。

于 2009-12-29T04:42:01.093 に答える
3

実際のコードをお探しの場合は、CMUのオープンソース音声認識プロジェクトであるSphinxをご覧ください。これはC++で書かれていませんが、アルゴリズムに興味がある場合は、そこから学ぶことができる多くのことを実装しています。(@dehmannのポイントもエコーしたいと思います:隠れマルコフモデルを読んでください。)

于 2009-12-23T06:39:49.300 に答える
3

あなたがMSについて言及したので-

Microsoft Speechサイトを参照してください。TTS や音声認識など、音声を処理するための多くのリソースが含まれています。

于 2009-12-22T17:06:28.897 に答える
1

高度な音声認識をどうするか興味がある場合は、以下をお読みください: Randy Allen Harris による Voice Interaction Design

Voice をいつ使用するか、アプリケーションでどのように使用するかについて、いくつかの優れたアドバイスを提供します。

于 2010-05-27T12:07:19.730 に答える