2

一般的な調査を行っているだけです。次のことを行うオープンソースの (または有料の?) ツール/プログラムはありますか?

INPUT: いくつかのラベルのない音声の音声ファイル、おそらく数文の長さ (音声の音声転写が何であるかについては示されていない)

OUTPUT: 音声表記 (IPA アルファベット) が並べられ、音声にラベル付けされた音声ファイル

これは音声辞書だけで、単語辞書なしで行うことは可能ですか?

4

1 に答える 1

1

Sphinx には、この種の出力仮説を生成するすべての電話機能があります。しかし、ほとんどの音声認識は、音声辞書と n-gram 言語モデルを利用することで大幅に改善されます。これらを仮説の作成に使用し、それを Sphinx を使用してラベル付けされた整列音素に変換することができます。

これは音声的なものの例です。

http://cmusphinx.sourceforge.net/wiki/phonemerecognition

でも、長らくスピーチレックゲームから離れていました。現在、ほとんどの人がこの種の概念のためにニューラル ネットワークを追求していると思いますが、その分野でオープンなニューラル ネットワークを私は知りません。

于 2014-12-12T04:54:58.597 に答える