Sphinx4 では、音響モデルのオーディオを 5 ~ 30 秒ごとにセグメント化する必要があります。なんで?また、オーディオをどのようにセグメント化しますか? 5 秒、10 秒、または 25 秒でセグメント化するのはいつですか? ありがとうございます!
2 に答える
1
Sphinxtrain は、トレーニングのためにテキストと音声の位置合わせを実行します。個々の音声と音素を一致させようとします。音声が長い場合、バリエーションが多すぎて間違いが発生する可能性があるため、適切な一致を取得するのが難しくなります。そのため、推奨される発話の長さを維持することをお勧めします。
無音領域で分割する必要があるオーディオをセグメント化する場合、発話の長さは問題ではありません。最初と最後に小さな無音領域があることがより重要です。小さな無音領域は、トレーナーがコンテキストを見つけるのに役立ちます。
于 2015-09-03T06:29:27.030 に答える
0
経験則として、セグメントが長いほど優れています。オーディオをセグメント化するには、 soxを確認する必要がある場合があります。セグメンテーションに便利なトリムコマンドがあります。
于 2015-09-02T23:39:45.897 に答える