speech-recognition - 音響モデルを構築するために、オーディオをそれぞれ 5 ～ 30 秒に分割する必要があるのはなぜですか?

Question

Sphinx4 では、音響モデルのオーディオを 5 ～ 30 秒ごとにセグメント化する必要があります。なんで？また、オーディオをどのようにセグメント化しますか? 5 秒、10 秒、または 25 秒でセグメント化するのはいつですか? ありがとうございます！

score 1 · Accepted Answer

Sphinxtrain は、トレーニングのためにテキストと音声の位置合わせを実行します。個々の音声と音素を一致させようとします。音声が長い場合、バリエーションが多すぎて間違いが発生する可能性があるため、適切な一致を取得するのが難しくなります。そのため、推奨される発話の長さを維持することをお勧めします。

無音領域で分割する必要があるオーディオをセグメント化する場合、発話の長さは問題ではありません。最初と最後に小さな無音領域があることがより重要です。小さな無音領域は、トレーナーがコンテキストを見つけるのに役立ちます。

score 0 · Accepted Answer

経験則として、セグメントが長いほど優れています。オーディオをセグメント化するには、 soxを確認する必要がある場合があります。セグメンテーションに便利なトリムコマンドがあります。

speech-recognition - 音響モデルを構築するために、オーディオをそれぞれ 5 ～ 30 秒に分割する必要があるのはなぜですか?

2 に答える 2

Related

Reference