cmusphinx を使用して、中国の 14 歳未満の子供向けの、語彙が約 800 語の英語の音響モデルを構築したいと考えています。
一部の商用音声エンジンは、音響モデルをトレーニングするために数千時間の音声レコードを必要とするという調査を行いました (ニュアンスと google は 2000 時間以上と 1000 時間以上を費やしました)。
約 95% の精度を達成する必要があるため、音声コーパスには何時間必要ですか?
音声コーパスが長いほど、正確なレートが達成されますか?
cmusphinx を使用して、中国の 14 歳未満の子供向けの、語彙が約 800 語の英語の音響モデルを構築したいと考えています。
一部の商用音声エンジンは、音響モデルをトレーニングするために数千時間の音声レコードを必要とするという調査を行いました (ニュアンスと google は 2000 時間以上と 1000 時間以上を費やしました)。
約 95% の精度を達成する必要があるため、音声コーパスには何時間必要ですか?
音声コーパスが長いほど、正確なレートが達成されますか?