一般的な調査を行っているだけです。次のことを行うオープンソースの (または有料の?) ツール/プログラムはありますか?
INPUT: いくつかのラベルのない音声の音声ファイル、おそらく数文の長さ (音声の音声転写が何であるかについては示されていない)
OUTPUT: 音声表記 (IPA アルファベット) が並べられ、音声にラベル付けされた音声ファイル
これは音声辞書だけで、単語辞書なしで行うことは可能ですか?
一般的な調査を行っているだけです。次のことを行うオープンソースの (または有料の?) ツール/プログラムはありますか?
INPUT: いくつかのラベルのない音声の音声ファイル、おそらく数文の長さ (音声の音声転写が何であるかについては示されていない)
OUTPUT: 音声表記 (IPA アルファベット) が並べられ、音声にラベル付けされた音声ファイル
これは音声辞書だけで、単語辞書なしで行うことは可能ですか?
Sphinx には、この種の出力仮説を生成するすべての電話機能があります。しかし、ほとんどの音声認識は、音声辞書と n-gram 言語モデルを利用することで大幅に改善されます。これらを仮説の作成に使用し、それを Sphinx を使用してラベル付けされた整列音素に変換することができます。
これは音声的なものの例です。
http://cmusphinx.sourceforge.net/wiki/phonemerecognition
でも、長らくスピーチレックゲームから離れていました。現在、ほとんどの人がこの種の概念のためにニューラル ネットワークを追求していると思いますが、その分野でオープンなニューラル ネットワークを私は知りません。