オートエンコーダーを使用して音素分類子を実装しました (オーディオ ファイル配列を指定すると、認識されたすべての音素が返されます)。単語認識が可能になるように、このプロジェクトを拡張したいと考えています。与えられた音素のリストから単語を認識するトレーニング済みの HMM モデル (英語) は存在しますか?
みんなありがとう。
オートエンコーダーを使用して音素分類子を実装しました (オーディオ ファイル配列を指定すると、認識されたすべての音素が返されます)。単語認識が可能になるように、このプロジェクトを拡張したいと考えています。与えられた音素のリストから単語を認識するトレーニング済みの HMM モデル (英語) は存在しますか?
みんなありがとう。
あなたを助けることができるデコーダーを知りません。音声認識ソフトウェアは、この方法では機能しません。
通常、そのようなことには、動的ビーム検索のカスタム実装が必要です。これは大した作業ではなく、おそらく 100 行のコードです。また、音声デコーダが生成するものにも依存します。それは音声格子(理想的には)ですか、それともスコア付きの1ベストの結果ですか、それともスコアなしの単に1ベストの結果ですか。
適切なラティスがある場合は、LM とディクショナリを FST に変換する openfst ツールキットを試してから、ラティス FST で作成し、fstbestpath を使用して最適なパスを見つけることができます。それでも、これらすべての音声変換の代わりに、単純に動的検索を作成できます。
Baidu のプロジェクトでは、音声を文字に変換し、言語モデルを使用して文字の順序を修正しています。しかし、言語モデルがなくても同じようにうまく機能すると彼らは言います。