cmusphinx - 音響モデルのトレーニングに必要な時間

Question

cmusphinx を使用して、中国の 14 歳未満の子供向けの、語彙が約 800 語の英語の音響モデルを構築したいと考えています。

一部の商用音声エンジンは、音響モデルをトレーニングするために数千時間の音声レコードを必要とするという調査を行いました (ニュアンスと google は 2000 時間以上と 1000 時間以上を費やしました)。

約 95% の精度を達成する必要があるため、音声コーパスには何時間必要ですか?

音声コーパスが長いほど、正確なレートが達成されますか?

score 0 · Accepted Answer

300 ～ 400 時間は十分な量のデータです。100 未満では機能しません。

データサイズが大きくなっても、トレーニングデータ自体に体系的な問題がある場合、必ずしも精度が向上するわけではありませんが、トレーニングデータの問題を適切に分析すれば、結果が改善される可能性があります。

機械学習全般を学習する場合、このコースではデータ準備の問題がカバーされます。

1 に答える 1