0

cmusphinx を使用して、中国の 14 歳未満の子供向けの、語彙が約 800 語の英語の音響モデルを構築したいと考えています。

一部の商用音声エンジンは、音響モデルをトレーニングするために数千時間の音声レコードを必要とするという調査を行いました (ニュアンスと google は 2000 時間以上と 1000 時間以上を費やしました)。

約 95% の精度を達成する必要があるため、音声コーパスには何時間必要ですか?

音声コーパスが長いほど、正確なレートが達成されますか?

4

1 に答える 1

0

300 ~ 400 時間は十分な量のデータです。100 未満では機能しません。

データ サイズが大きくなっても、トレーニング データ自体に体系的な問題がある場合、必ずしも精度が向上するわけではありませんが、トレーニング データの問題を適切に分析すれば、結果が改善される可能性があります。

機械学習全般を学習する場合、このコースではデータ準備の問題がカバーされます。

于 2013-10-31T10:10:10.840 に答える